AdaptThink: Reasoning Models Can Learn When to Think

本文提出 AdaptThink，一种基于强化学习的算法，通过自适应选择 Thinking 或 NoThinking 模式显著降低推理模型的响应长度（平均减少 40-53%）并提升准确率（平均提升 2.3-2.4%），在数学任务上展现了效率与性能的良好平衡。

Reinforcement Learning, Reasoning, Efficiency, Large Language Model, Human-AI Interaction

Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li

Tsinghua University

Generated by grok-3

Background Problem

近年来，大型推理模型（如 OpenAI o1 和 DeepSeek-R1）通过生成冗长的思考过程（Thinking）在复杂任务上取得了显著成果，但这种过程在简单任务中往往导致不必要的计算开销和延迟，影响用户体验。现有方法多集中于缩短响应长度，而忽略了是否需要思考这一根本问题。受 NoThinking 方法（通过提示跳过思考直接生成答案）的启发，本文研究如何让模型根据问题难度自适应选择思考模式（Thinking 或 NoThinking），以在性能和效率之间取得更好的平衡。

Method

本文提出了 AdaptThink，一种基于强化学习（RL）的算法，旨在训练推理模型根据问题难度自适应选择思考模式。具体方法如下：

核心思想：通过 RL 优化，让模型在简单问题上倾向于 NoThinking 模式（直接生成答案），在复杂问题上选择 Thinking 模式（生成详细推理过程），从而减少推理成本并维持或提升性能。
实现步骤：
1. 简化 NoThinking 方法：通过提示模型以空思考段（即 <think></think>）直接生成最终答案，跳过冗长推理。
2. 约束优化目标：设计一个优化目标，鼓励模型选择 NoThinking 模式，同时通过惩罚项确保整体性能不下降。形式化地，目标为最大化 NoThinking 响应的概率，同时约束准确率不低于参考模型（初始模型），最终转化为 PPO 风格的损失函数。
3. 重要性采样策略：为解决冷启动问题（初始模型几乎不生成 NoThinking 响应），引入重要性采样，确保训练过程中 Thinking 和 NoThinking 样本各占一半，从而让模型从一开始就能探索两种模式。
关键点与潜在问题：方法不修改模型架构，仅通过 RL 调整策略，理论上具有通用性。但其对问题难度的判断依赖于 RL 训练的隐式学习，缺乏明确的难度评估机制，可能导致模式选择不稳定或次优。此外，超参数 δ（控制效率与准确率的权衡）对结果影响较大，调参成本可能较高。

Experiment

实验基于两个推理模型（DeepSeek-R1-Distill-Qwen-1.5B 和 7B）进行，训练数据为 DeepScaleR（40K 数学问题），评估数据集包括 GSM8K（小学数学）、MATH500（高中竞赛数学）和 AIME 2024（奥林匹克级数学），难度递增。评估指标为准确率和响应长度。

实验设置：与多种基线方法（如 DPOShortest、OverThink、ModelMerging 等）对比，这些方法多通过缩短 Thinking 响应或混合模式优化效率。AdaptThink 使用 RL 框架 VeRL 实现，训练 1 个 epoch，超参数 δ=0.05，上下文长度 16K。
结果分析：AdaptThink 在 1.5B 模型上平均减少 53.0% 响应长度，提升 2.4% 准确率；在 7B 模型上减少 40.1% 长度，提升 2.3% 准确率，优于大多数基线。尤其在简单数据集（如 GSM8K）上，NoThinking 模式占比高（1.5B 模型达 86.9%），而在复杂数据集（如 AIME 2024）上更多选择 Thinking，表明模式选择与难度相关。
实验设计评价：实验设置较为全面，涵盖不同难度数据集和模型规模，且通过 δ 值分析展示了效率与准确率的权衡。然而，基线方法多集中于 Thinking 模式优化，缺乏基于规则的简单难度判断方法作为对比，可能高估了 AdaptThink 的创新性。此外，训练和测试数据均以数学问题为主，MMLU 测试虽显示一定泛化性，但其他领域（如文本推理）的适用性仍需验证。结果虽符合预期，但 implicit thinking 问题（NoThinking 模式下仍可能包含隐式推理）未完全解决，可能削弱效率提升。

Further Thoughts

AdaptThink 的自适应模式选择为推理模型的效率优化提供了一个新颖视角，但其依赖 RL 的黑箱优化可能限制了方法的可解释性和可控性。未来是否可以结合显式的难度评估机制（如基于问题特征的分类器）来辅助模式选择？这或许能减少训练成本并提升稳定性。此外，论文中提到的 implicit thinking 问题提示我们，模型在 NoThinking 模式下可能仍执行隐式推理，这与心理学中人类直觉决策（System 1）中仍包含快速推理的特性类似。如果能进一步区分‘纯答案输出’与‘隐式推理’，或许能更精准地控制效率。另一方面，AdaptThink 的思路可能不仅限于数学推理，若能扩展到代码生成或多模态任务（如视觉推理），其在实际应用中的价值将进一步提升，但这需要解决跨领域难度评估的挑战。结合其他研究（如基于上下文长度的动态推理调整），AdaptThink 或可成为构建高效 AI 助手的重要一环。