Tag: Reasoning
All the articles with the tag "Reasoning".
-
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt
本文从自我怀疑视角量化分析长链式思维中的过度思考问题,并提出一种简单提示方法,通过评估输入有效性减少令牌消耗和自我怀疑,在数学推理任务中显著提升效率并维持准确率。
-
Lost in Transmission: When and Why LLMs Fail to Reason Globally
本文提出BAPO模型量化大型语言模型(LLMs)内部通信带宽限制,理论证明与实验验证了LLMs在高带宽需求任务上的失败,并展示链式思维(CoT)可降低带宽需求以缓解部分问题。
-
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
本文研究了大语言模型在强化学习后训练中对奖励噪声的鲁棒性,提出推理模式奖励(RPR)策略,通过奖励关键推理短语而非答案正确性显著提升性能,并用RPR校准噪声奖励模型,改善开放式任务表现。
-
Large Language Models Might Not Care What You Are Saying: Prompt Format Beats Descriptions
本文提出了一种'Ensemble'提示框架,通过描述上下文示例选择标准提升大型语言模型在上下文学习中的性能,实验表明模型对提示格式的敏感性远高于描述内容本身,尤其在小型模型上效果显著。
-
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs
本文提出DCoT方法,通过在单次推理步骤内生成多个多样化推理链并进行自我改进,显著提升了大型语言模型在复杂推理任务上的性能,尤其在结果空间较大的任务中效果突出。