Skip to content
Go back 2504.10478 arXiv logo

Weight Ensembling Improves Reasoning in Language Models

Published:  at  01:27 AM
88.15 😐

本文发现监督微调导致推理模型多样性坍塌损害 Pass@K,并提出通过插值早期与后期 SFT 检查点(WiSE-FT)的方法,有效提升模型多样性,同时提高 Pass@1 和 Pass@K,进而改善测试时缩放和强化学习效果。

Supervised Learning, Large Language Model, Reasoning, Fine-tuning, Efficiency

Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, Aditi Raghunathan

Tsinghua University, Carnegie Mellon University, Stanford University

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)在复杂推理任务中表现出色,但这通常依赖于测试时的多样本策略(如采样多个推理轨迹并投票或使用奖励模型选择)。衡量这种能力的关键指标是 Pass@K,即 K 次独立采样中至少有一次正确的概率。然而,标准的监督微调(SFT)训练流程虽然能提高单次尝试的准确率(Pass@1),却常常导致“多样性坍塌”(diversity collapse),即模型生成的推理轨迹变得非常相似。这使得即使采样多次,也可能都犯同样的错误,从而损害了 Pass@K 性能。这种现象在数学推理等任务中尤为明显,形成了 Pass@1 提高与 Pass@K 下降之间的矛盾。

Method

Experiment

Further Thoughts

本文的核心发现——监督微调(SFT)虽然提升了单次尝试的准确率(Pass@1),却牺牲了生成多样性,导致多样本推理(Pass@K)性能下降,这揭示了推理模型训练中的一个关键矛盾。WiSE-FT通过插值早期和后期SFT检查点来解决这个问题,其有效性令人惊讶,因为它没有引入复杂的训练目标或推理策略,仅仅是模型权重的简单组合。这暗示了SFT训练过程中,模型可能在不同的训练阶段学习到了互补的能力:早期阶段保留了探索性和多样性,而后期阶段则专注于提高特定模式下的准确性。将这种思想推广,或许可以在其他需要多样性输出的任务(如创意写作、代码生成)中探索类似的权重组合或模型融合策略。此外,论文对Pass@K的偏差-方差分解提供了一个清晰的理论视角,解释了多样性坍塌如何增加方差并损害Pass@K。理论分析指出标准RL算法在没有KL正则化时也会导致多样性坍塌,并且KL正则化并不能增加多样性,这为理解RL在推理任务中的局限性提供了深刻见解。最后,论文强调了当前解码策略与理论最优Pass@K之间的巨大差距,这指明了未来研究的重要方向:如何在训练或推理阶段更有效地引导模型生成多样且高质量的推理路径,而不仅仅依赖于后处理的解码技巧。



Previous Post
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs
Next Post
Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost