Tag: Chain-of-Thought
All the articles with the tag "Chain-of-Thought".
-
Training Language Models to Reason Efficiently
本文提出了一种通过强化学习训练大型推理模型以高效推理的方法,利用长度惩罚目标函数和可调参数α显著降低推理成本,同时在多个数学数据集上保持大部分准确性。
-
Fractured Chain-of-Thought Reasoning
本文提出Fractured Sampling方法,通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化,显著提升大型语言模型在长链式推理任务中的成本-性能权衡。
-
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
本文提出了一种多阶段训练方案,包括大规模蒸馏、滚动偏好优化和可验证奖励的强化学习,显著提升了小型语言模型在数学推理任务中的性能,使3.8B参数的Phi-4-Mini-Reasoning模型超过了近两倍参数的开源基线模型。