Skip to content
Go back 2505.08140 arXiv logo

Lost in Transmission: When and Why LLMs Fail to Reason Globally

Published:  at  11:19 PM
85.58 🤔

本文提出BAPO模型量化大型语言模型(LLMs)内部通信带宽限制,理论证明与实验验证了LLMs在高带宽需求任务上的失败,并展示链式思维(CoT)可降低带宽需求以缓解部分问题。

Large Language Model, Transformer, Reasoning, Efficiency, Human-AI Interaction

Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan, Jennifer Neville

Microsoft Research, Netflix

Generated by grok-3

Background Problem

大型语言模型(LLMs)在许多任务上取得了成功,但在需要跨整个输入进行复杂推理的全局问题上持续表现不佳,例如连锁三段论、函数组合和形式语言识别。论文假设这些失败源于LLMs内部信息流的有效带宽限制,即模型无法准确地在残差流之间传递足够的信息来解决全局问题。作者通过提出有界注意力前缀预言机(BAPO)模型,试图从理论上量化这种通信约束,并探索其对LLM性能的影响,解决的关键问题是识别哪些任务因带宽限制而对LLMs构成挑战,以及如何通过方法如链式思维(CoT)缓解这一限制。

Method

论文提出了有界注意力前缀预言机(BAPO)模型,用于模拟Transformer架构中因果注意力机制下的通信带宽限制:

Experiment

实验验证了BAPO模型的预测能力,测试了GPT-4o、Claude 3.5和Gemini 1.5等LLMs在BAPO-easy和BAPO-hard问题上的表现:

Further Thoughts

BAPO模型提供了一个有趣的视角来理解LLMs在全局推理任务上的局限性,但其理论假设与实际模型能力之间的差距值得进一步探索。例如,实际LLMs的带宽限制可能不仅源于架构设计,还与训练数据分布和优化目标有关,未来的研究可以结合机械可解释性(Mechanistic Interpretability)方法,深入分析注意力头的实际信息流分布。此外,CoT在实验中的有限提升提示我们,单纯依赖推理步骤分解可能不足以解决带宽问题,是否可以通过设计专门的低带宽推理算法或架构(如更高效的注意力机制)来突破这一限制?另外,BAPO模型的理论框架或许可以扩展到其他领域,如多模态模型的信息流分析,探索视觉和语言模态间的信息带宽限制对模型性能的影响,这可能为设计更强大的基础模型提供新思路。



Previous Post
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
Next Post
Long Term Memory: The Foundation of AI Self-Evolution