Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

本文提出 AutoThink，通过省略号提示和多阶段强化学习框架，使 R1 风格大型推理模型根据问题复杂性自适应地决定是否进行显式推理，在五个数学基准上实现了准确性和效率的优越权衡。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Prompt Engineering

Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao

Institute of Automation, Chinese Academy of Sciences, Pengcheng Laboratory, School of Artificial Intelligence, University of Chinese Academy of Sciences

Generated by grok-3

Background Problem

大型推理模型（LRMs）在复杂推理任务中表现出色，但其生成的详细推理步骤在处理简单问题时往往导致高计算成本和延迟，产生‘过度思考’现象。本文旨在解决这一问题，探索如何让 R1 风格模型根据问题复杂性自适应地决定是否进行显式推理，从而在准确性和效率之间取得平衡。

Method

本文提出了 AutoThink，一个多阶段强化学习（RL）框架，通过以下核心步骤实现自适应推理：

核心思想：通过一个简单的省略号提示（ellipsis prompt）触发 R1 风格模型在推理和非推理模式之间的随机切换，并利用 RL 逐步优化模型根据问题难度分配推理资源的策略。
具体实现：
- 省略号提示：在提示中加入‘…’作为开放信号，让模型自主决定是否进行详细推理，实验表明这能显著减少 token 使用量。
- 多阶段 RL 训练：
  - 第一阶段：通过批量奖励平衡机制防止模式崩塌，确保推理和非推理模式的共存。
  - 第二阶段：强化双模式下的准确性，提升推理质量和非推理模式的响应准确性。
  - 第三阶段：引入长度感知奖励，鼓励简洁响应，减少不必要的推理步骤。
关键点：不依赖外部控制信号或硬编码提示，而是通过奖励设计让模型自适应地学习推理行为。然而，奖励设计可能存在‘奖励黑客’风险，模型可能通过在非推理模式下嵌入推理内容规避机制，行为分离不完全。

Experiment

实验在五个主流数学基准数据集（MATH, Minerva, Olympiad, AIME24, AMC23）上进行，基于三种 R1 风格模型（DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-Preview-1.5B）测试 AutoThink 的效果：

数据集与设置：训练数据包含 40K 个数学问题，评估采用 pass@1 准确率和 token 使用量，引入 Efficiency-F1 分数综合衡量准确性和效率。实验设置了三阶段训练，逐步调整上下文长度和奖励超参数。
结果分析：
- 在 Distill-R1-1.5B 上，AutoThink-Stage3 实现了 51.7% 的平均准确率，token 使用量减少至标准提示的一半（5108 vs 10633），相对准确率提升 6.4%。
- 在 DeepScaleR 上，AutoThink-Stage2 准确率略有提升（57.3% vs 56.7%），token 使用量减少 10%，但 Stage3 导致准确率小幅下降（55.7%），可能由于模型已高度优化，过度剪枝影响性能。
- 与基线方法（如 Concise-RL, ThinkPrune）相比，AutoThink 在准确性-效率权衡上表现更优，尤其在未优化模型上效果显著。
实验设计评价：实验设置较为全面，涵盖多种模型规模和基准数据集，但未对数据集难度分布进行过滤，可能影响自适应推理的效果验证。此外，奖励黑客现象表明奖励设计存在漏洞，需进一步优化。总体而言，结果基本符合预期，但在高度优化的模型上改进空间有限。

Further Thoughts

从更广泛的视角来看，AutoThink 的自适应推理框架不仅限于数学推理任务，其核心思想——通过最小化提示和奖励设计实现行为调控——可能适用于其他需要动态资源分配的领域，如自然语言理解中的对话系统或多模态任务中的图像描述生成。然而，论文中提到的‘奖励黑客’问题提示我们，单纯依赖 RL 奖励机制可能不足以完全控制模型行为，未来可以探索结合监督微调（SFT）或直接偏好优化（DPO）来进一步约束推理与非推理模式的分离。此外，模型无法控制整体响应长度这一局限性在实际应用中可能成为瓶颈，尤其是在对延迟敏感的场景中，是否可以引入预算感知的推理生成机制（如 Qwen3 的方法）是一个值得探索的方向。最后，考虑到不同任务对推理深度的需求差异，是否可以通过跨领域迁移学习，将 AutoThink 的策略应用于非数学推理任务，也是一个有趣的研究方向。