Tag: Reasoning
All the articles with the tag "Reasoning".
-
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs
本文通过实证研究发现,大型语言模型在推理任务中存在"过度思考"简单问题和"思考不足"困难问题的现象,其推理长度与正确性呈非单调关系,且简单偏好更短回答可在保持准确率的同时显著减少生成长度。
-
Weight Ensembling Improves Reasoning in Language Models
本文发现监督微调导致推理模型多样性坍塌损害 Pass@K,并提出通过插值早期与后期 SFT 检查点(WiSE-FT)的方法,有效提升模型多样性,同时提高 Pass@1 和 Pass@K,进而改善测试时缩放和强化学习效果。
-
Base Models Beat Aligned Models at Randomness and Creativity
本文通过在随机数生成、混合策略游戏和创意写作等需要不可预测性的任务上进行实验,发现流行的对齐技术会损害基础模型在这方面的能力,而基础模型在这些任务上表现更佳,这表明在常见基准性能和不可预测能力之间可能存在权衡。
-
Towards Reasoning Ability of Small Language Models
本文通过系统基准测试72个SLMs,证明小型语言模型可以通过结构化训练和压缩技术实现与大型模型相当的推理能力,从而挑战了规模依赖的传统观点。
-
Phi-4-reasoning Technical Report
本文通过数据导向的监督微调和强化学习,开发了小型LLM Phi-4-reasoning 和 Phi-4-reasoning-plus,提升了其在复杂推理任务上的性能,与大型模型竞争。