Posts
All the articles I've posted.
-
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
-
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。
-
Scaling Reasoning without Attention
本文提出 PROMPTCOT-MAMBA,一种基于 Mamba-2 状态空间模型的无注意力语言模型,通过两阶段课程微调和 PROMPTCOT 合成范式,在数学和代码推理任务上超越同规模甚至更大规模的 Transformer 模型,同时实现固定内存和高效推理。
-
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
本文提出SpaRTA方法,通过随机选择一小部分预训练模型参数进行微调,实现参数高效性,并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。
-
Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective
本文提出基于扩散语言模型的文本嵌入方法DIFFEMBED,利用其双向注意力机制在长文档检索和推理密集型任务上显著优于自回归LLM嵌入模型,同时在传统嵌入任务上表现相当。