本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Hybrid Reasoning
Gongfan Fang, Xinyin Ma, Xinchao Wang
National University of Singapore
Generated by grok-3
Background Problem
大型语言模型(LLM)在复杂推理任务中通过链式思维(Chain-of-Thought)展现了强大能力,但对所有问题统一采用详细推理会导致计算资源浪费,尤其是在简单问题上冗余生成大量token,增加计算成本和延迟。因此,一个关键问题是:LLM能否根据任务复杂度和自身能力自主学习何时进行深入推理?本文提出了一种混合推理框架,旨在解决这一问题,通过让模型动态选择短格式或长格式推理来提升效率。
Method
本文提出了Thinkless框架,通过强化学习让LLM自主选择推理模式,具体分为两个阶段:
- 预热阶段(Distillation for Warm-up):利用两个预训练专家模型(一个擅长详细推理,另一个擅长简洁回答)生成长短格式响应的配对数据集,通过监督微调(SFT)训练目标模型,使其能够根据控制token(
和 )生成相应风格的响应。 - 强化学习阶段(Reinforcement Learning with DeGRPO):提出了一种改进的强化学习算法——解耦组相对策略优化(Decoupled Group Relative Policy Optimization, DeGRPO),将学习目标分解为模式选择(控制token)和响应准确性提升(响应token)两个部分,通过独立归一化和加权系数α平衡两者的梯度贡献,避免模式崩溃问题(如过度偏向长或短格式)。 关键问题与批评:DeGRPO虽然在理论上解决了模式选择和响应生成的不平衡,但其加权系数α的设置(实验中为1/1000)缺乏充分的理论依据和调参分析,可能导致训练不稳定或次优结果。此外,强化学习阶段的奖励设计过于简单,仅基于正确性与长度偏好,未考虑推理质量或用户体验等更复杂的因素,可能限制模型在实际应用中的表现。
Experiment
实验基于DeepSeek-R1-Distill-Qwen-1.5B模型,使用数学数据集(如AIME、Minerva Algebra、MATH-500、GSM8K)进行评估,分为预热和强化学习两个阶段训练。实验设置包括:预热阶段使用配对数据集进行SFT,强化学习阶段采用DeepScaleR数据集(约40K样本)优化模式选择策略。结果显示:
- Thinkless在简单任务上将长链推理使用比例降低50%-90%,如在GSM8K数据集上仅13.31%的查询使用长链推理,同时保持了与基线模型相近的准确率(Pass@1为0.8418)。
- 在复杂任务(如AIME)上,模型倾向于更多使用长链推理(100%使用),以保证性能。
- 与其他方法(如模型合并、CoT-Valve、路由器方法)相比,Thinkless在效率和准确性之间取得了更好的平衡,尤其是在Minerva Algebra数据集上,token使用量减少至原先的三分之一,性能仅下降1%。 批评与分析:实验设计主要集中在数学任务上,缺乏对其他领域(如语言理解或多模态任务)的验证,泛化性存疑。此外,虽然效率提升显著,但复杂任务上强制使用长链推理可能掩盖了短格式推理的潜力,实验未充分探讨如何进一步优化复杂任务的效率。奖励函数设计过于简单,未考虑长链推理的质量,可能导致结果的片面性。总体而言,实验设置合理但不够全面,部分结果可能存在选择性报告的风险。
Further Thoughts
Thinkless框架提供了一个有趣的视角,即通过强化学习让模型自主决定推理深度,这在资源受限的场景(如边缘设备上的推理)中具有潜在应用价值。然而,我认为其方法可能过于依赖数学任务的特性,未充分考虑其他领域的复杂性,例如在自然语言理解或多模态任务中,任务复杂度的评估和推理模式的切换可能需要更复杂的奖励设计和上下文感知机制。此外,与其他研究(如自适应计算时间或动态层级推理)结合,或许能进一步提升模型在不同任务上的效率和性能。另一个值得探讨的方向是,如何在强化学习中引入用户反馈作为奖励信号,以更好地平衡效率和用户满意度,而不仅仅依赖预定义的正确性指标。这可能需要与人机交互领域的研究相结合,探索更贴近实际应用场景的混合推理策略。