Tag: Chain-of-Thought

All the articles with the tag "Chain-of-Thought".

Training Language Models to Reason Efficiently

Published: 24 May, 2025 at 11:14 AM

91.10 🤔

本文提出了一种通过强化学习训练大型推理模型以高效推理的方法，利用长度惩罚目标函数和可调参数α显著降低推理成本，同时在多个数学数据集上保持大部分准确性。
Fractured Chain-of-Thought Reasoning

Published: 23 May, 2025 at 11:11 AM

86.28 🤔

本文提出Fractured Sampling方法，通过在推理轨迹数量、解决方案多样性和推理深度三个维度上进行采样优化，显著提升大型语言模型在长链式推理任务中的成本-性能权衡。
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Published: 4 May, 2025 at 04:33 PM

83.56 👍

本文提出了一种多阶段训练方案，包括大规模蒸馏、滚动偏好优化和可验证奖励的强化学习，显著提升了小型语言模型在数学推理任务中的性能，使3.8B参数的Phi-4-Mini-Reasoning模型超过了近两倍参数的开源基线模型。