本文提出 AdaptThink,一种基于强化学习的算法,通过自适应选择 Thinking 或 NoThinking 模式显著降低推理模型的响应长度(平均减少 40-53%)并提升准确率(平均提升 2.3-2.4%),在数学任务上展现了效率与性能的良好平衡。
Reinforcement Learning, Reasoning, Efficiency, Large Language Model, Human-AI Interaction
Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li
Tsinghua University
Generated by grok-3
Background Problem
近年来,大型推理模型(如 OpenAI o1 和 DeepSeek-R1)通过生成冗长的思考过程(Thinking)在复杂任务上取得了显著成果,但这种过程在简单任务中往往导致不必要的计算开销和延迟,影响用户体验。现有方法多集中于缩短响应长度,而忽略了是否需要思考这一根本问题。受 NoThinking 方法(通过提示跳过思考直接生成答案)的启发,本文研究如何让模型根据问题难度自适应选择思考模式(Thinking 或 NoThinking),以在性能和效率之间取得更好的平衡。
Method
本文提出了 AdaptThink,一种基于强化学习(RL)的算法,旨在训练推理模型根据问题难度自适应选择思考模式。具体方法如下:
- 核心思想:通过 RL 优化,让模型在简单问题上倾向于 NoThinking 模式(直接生成答案),在复杂问题上选择 Thinking 模式(生成详细推理过程),从而减少推理成本并维持或提升性能。
- 实现步骤:
- 简化 NoThinking 方法:通过提示模型以空思考段(即
<think></think>
)直接生成最终答案,跳过冗长推理。 - 约束优化目标:设计一个优化目标,鼓励模型选择 NoThinking 模式,同时通过惩罚项确保整体性能不下降。形式化地,目标为最大化 NoThinking 响应的概率,同时约束准确率不低于参考模型(初始模型),最终转化为 PPO 风格的损失函数。
- 重要性采样策略:为解决冷启动问题(初始模型几乎不生成 NoThinking 响应),引入重要性采样,确保训练过程中 Thinking 和 NoThinking 样本各占一半,从而让模型从一开始就能探索两种模式。
- 简化 NoThinking 方法:通过提示模型以空思考段(即
- 关键点与潜在问题:方法不修改模型架构,仅通过 RL 调整策略,理论上具有通用性。但其对问题难度的判断依赖于 RL 训练的隐式学习,缺乏明确的难度评估机制,可能导致模式选择不稳定或次优。此外,超参数 δ(控制效率与准确率的权衡)对结果影响较大,调参成本可能较高。
Experiment
实验基于两个推理模型(DeepSeek-R1-Distill-Qwen-1.5B 和 7B)进行,训练数据为 DeepScaleR(40K 数学问题),评估数据集包括 GSM8K(小学数学)、MATH500(高中竞赛数学)和 AIME 2024(奥林匹克级数学),难度递增。评估指标为准确率和响应长度。
- 实验设置:与多种基线方法(如 DPOShortest、OverThink、ModelMerging 等)对比,这些方法多通过缩短 Thinking 响应或混合模式优化效率。AdaptThink 使用 RL 框架 VeRL 实现,训练 1 个 epoch,超参数 δ=0.05,上下文长度 16K。
- 结果分析:AdaptThink 在 1.5B 模型上平均减少 53.0% 响应长度,提升 2.4% 准确率;在 7B 模型上减少 40.1% 长度,提升 2.3% 准确率,优于大多数基线。尤其在简单数据集(如 GSM8K)上,NoThinking 模式占比高(1.5B 模型达 86.9%),而在复杂数据集(如 AIME 2024)上更多选择 Thinking,表明模式选择与难度相关。
- 实验设计评价:实验设置较为全面,涵盖不同难度数据集和模型规模,且通过 δ 值分析展示了效率与准确率的权衡。然而,基线方法多集中于 Thinking 模式优化,缺乏基于规则的简单难度判断方法作为对比,可能高估了 AdaptThink 的创新性。此外,训练和测试数据均以数学问题为主,MMLU 测试虽显示一定泛化性,但其他领域(如文本推理)的适用性仍需验证。结果虽符合预期,但 implicit thinking 问题(NoThinking 模式下仍可能包含隐式推理)未完全解决,可能削弱效率提升。
Further Thoughts
AdaptThink 的自适应模式选择为推理模型的效率优化提供了一个新颖视角,但其依赖 RL 的黑箱优化可能限制了方法的可解释性和可控性。未来是否可以结合显式的难度评估机制(如基于问题特征的分类器)来辅助模式选择?这或许能减少训练成本并提升稳定性。此外,论文中提到的 implicit thinking 问题提示我们,模型在 NoThinking 模式下可能仍执行隐式推理,这与心理学中人类直觉决策(System 1)中仍包含快速推理的特性类似。如果能进一步区分‘纯答案输出’与‘隐式推理’,或许能更精准地控制效率。另一方面,AdaptThink 的思路可能不仅限于数学推理,若能扩展到代码生成或多模态任务(如视觉推理),其在实际应用中的价值将进一步提升,但这需要解决跨领域难度评估的挑战。结合其他研究(如基于上下文长度的动态推理调整),AdaptThink 或可成为构建高效 AI 助手的重要一环。