Tag: Chain-of-Thought
All the articles with the tag "Chain-of-Thought".
-
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
本文提出了一种多阶段训练方案,包括大规模蒸馏、滚动偏好优化和可验证奖励的强化学习,显著提升了小型语言模型在数学推理任务中的性能,使3.8B参数的Phi-4-Mini-Reasoning模型超过了近两倍参数的开源基线模型。