Tag: Reasoning
All the articles with the tag "Reasoning".
-
Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains
本文提出Compressed Latent Reasoning (CoLaR)框架,通过潜在空间动态压缩和强化学习优化大型语言模型的推理过程,在数学推理任务中显著提升效率并保持较高准确率。
-
Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
本文提出通过缩放隐藏状态中的位置通道来缓解长上下文语言模型的位置偏差问题,并在多个模型和任务上验证了其有效性,特别是在“中间丢失”基准测试中显著提升了中间位置信息的利用率。
-
Large Language Models are Locally Linear Mappings
本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法,揭示了模型内部低秩语义结构,并初步探索了输出引导应用,但泛化性和实用性受限。
-
Let's Predict Sentence by Sentence
本文提出了一种句子级推理框架,通过自回归预测连续句子嵌入,将预训练语言模型提升到抽象推理空间,上下文嵌入在连续推理模式下与Chain-of-Thought (CoT) 表现相当,同时平均将推理计算成本降低一半。
-
When More is Less: Understanding Chain-of-Thought Length in LLMs
本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。