Skip to content
Go back 2504.05185 arXiv logo

Concise Reasoning via Reinforcement Learning

Published:  at  11:21 PM
85.10 🤔

本文提出了一种两阶段强化学习训练策略,通过在极小数据集上分阶段优化推理能力和简洁性,显著减少大型语言模型的响应长度(最高54%),同时保持甚至提升准确性,并增强低采样强度下的鲁棒性。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Pre-training

Mehdi Fatemi, Banafsheh Rafiee, Mingjie Tang, Kartik Talamadupula

Wand AI

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中取得了显著进展,但其生成冗长响应的倾向增加了计算成本、资源需求和响应时间。论文质疑了普遍认为较长响应必然提高推理准确性的假设,指出这种冗长主要源于RL训练中的损失优化,而非推理的内在需求。作者通过理论分析和实证观察,揭示了简洁性与准确性之间被忽视的相关性,提出关键问题:能否通过进一步的RL训练优化推理模型,使其生成更简洁的推理链,同时不牺牲准确性?

Method

论文提出了一种两阶段强化学习(RL)训练策略,旨在减少推理链长度并保持准确性:

此外,作者通过数学分析探讨了PPO和GRPO损失函数对响应长度的影响,指出PPO在λ<1时对正确答案偏向短响应,对错误答案偏向长响应,而GRPO在特定条件下会因优势函数崩溃而失效。方法的关键创新在于利用极小数据集进行训练,挑战了当前文献中对大规模数据集的依赖。

批判性思考:尽管两阶段策略在理论上合理,但其对极小数据集的依赖可能限制模型的泛化能力,尤其是在第一阶段。此外,GRPO的崩溃模式表明其在简洁性训练中的不可靠性,作者未充分探讨如何缓解这一问题或替代方案。

Experiment

实验基于DeepSeek-R1模型(基于Qwen模型蒸馏的1.5B和7B变体),验证了两阶段RL训练策略的效果:

Further Thoughts

本文的两阶段RL训练策略为减少推理模型的计算成本和响应时间提供了新思路,但其对极小数据集的依赖引发了关于泛化能力的担忧。未来研究可以探索如何在更大规模和多样化的数据集上验证这一策略的有效性,或者结合自适应问题选择机制,根据模型当前性能动态调整训练数据的难度。此外,GRPO的崩溃模式问题提示我们需要更稳定的RL算法或混合方法来实现简洁性目标。另一个有趣的方向是将这一策略与其他领域(如多模态推理或人机交互)结合,探索简洁性训练是否能提升跨领域任务的效率和用户体验。例如,在人机交互中,简洁的推理链可能显著改善用户对模型输出的理解和信任,这与当前对可解释性和可信AI的研究趋势高度相关。



Previous Post
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions
Next Post
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis