Skip to content
Go back 2505.17315 arXiv logo

Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning

Published:  at  11:16 AM
87.82 🤔

本文通过实验验证了长上下文能力与推理性能的正相关,提出在监督微调前增强长上下文能力的训练策略,并在数学推理基准上显著提升了模型性能。

Large Language Model, Long Context, Reasoning, Supervised Learning, Pre-training, Fine-tuning

Wang Yang, Zirui Liu, Hongye Jin, Qingyu Yin, Vipin Chaudhary, Xiaotian Han

Case Western Reserve University, University of Minnesota - Twin Cities, Texas A&M University, Amazon

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)在推理任务上展现出强大能力,但长上下文能力对推理性能的影响尚未被充分探索。本文提出假设:推理能力的当前局限部分源于长上下文能力的不足。这一假设基于三点观察:1)更长的上下文窗口(如128k vs 32k)通常带来更好的推理性能;2)推理失败案例表现出与长上下文处理失败相似的模式,如重复或错误引用;3)现代推理数据集包含大量长序列样本(超过10K token),对模型的长上下文能力提出更高要求。因此,本文旨在研究通过在监督微调(SFT)前增强模型的长上下文能力,是否能显著提升推理性能。

Method

本文提出了一种验证长上下文能力与推理能力关联的方法,主要包括以下步骤:

Experiment

实验设计分为三个部分,旨在验证长上下文能力对推理性能的影响:

Further Thoughts

本文提出的长上下文能力与推理能力关联的观点具有启发性,但其研究范围局限于中小规模模型(7B-8B),未来可以探索更大规模模型(如32B或以上)是否表现出类似趋势。此外,长上下文能力的提升是否真正增强了模型的‘推理深度’,还是仅仅改善了对长序列训练数据的处理能力,这一问题值得进一步研究。可以结合认知科学中的工作记忆理论,探讨长上下文能力是否模拟了人类推理中的信息保留机制。另外,长上下文能力提升带来的计算成本和延迟问题在论文中被忽视,未来研究应关注如何在性能与效率之间找到平衡点,例如通过稀疏注意力机制或输入压缩技术优化长上下文处理。最后,本文的研究可能与多模态模型的上下文处理能力提升有交叉启发,例如在视觉-语言任务中,长上下文能力是否同样对复杂推理(如图像描述中的逻辑推导)有显著影响,值得进一步探索。



Previous Post
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs
Next Post
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason