Posts
All the articles I've posted.
-
Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism
本文通过提出Gather-and-Aggregate (G&A)机制,揭示了Transformer和SSM模型在上下文检索能力上的性能差距主要源于少数关键头部的实现差异,并通过混合模型实验验证了注意力机制在改进SSM检索能力上的潜力。
-
Born a Transformer -- Always a Transformer?
本文通过检索和复制任务研究Transformer的长度泛化限制,发现预训练选择性增强了归纳能力(向右/向前任务),但无法克服架构固有局限,微调可平衡不对称性但仍受理论约束。
-
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning
本文挑战了推理 LLMs 中更长思考链提升性能的假设,提出 *short-m@k* 推理方法,通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少,并通过微调验证了短推理链训练的有效性。
-
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective
本文提出RaML框架,从元学习视角将LLM推理轨迹视为伪梯度更新,通过理论分析和实验验证了推理与优化的关联,并探索了训练策略和轨迹特性对推理能力的提升潜力。
-
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces
本文提出了一种等向性模型合并框架,通过展平任务矩阵奇异值谱并结合公共与任务特定子空间,显著提升了多任务模型的性能,在视觉和语言任务上达到了最先进的合并效果。