Skip to content
Go back 2505.10832 arXiv logo

Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

Published:  at  11:10 AM
92.09 🤔

本文提出 AutoThink,通过省略号提示和多阶段强化学习框架,使 R1 风格大型推理模型根据问题复杂性自适应地决定是否进行显式推理,在五个数学基准上实现了准确性和效率的优越权衡。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Prompt Engineering

Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao

Institute of Automation, Chinese Academy of Sciences, Pengcheng Laboratory, School of Artificial Intelligence, University of Chinese Academy of Sciences

Generated by grok-3

Background Problem

大型推理模型(LRMs)在复杂推理任务中表现出色,但其生成的详细推理步骤在处理简单问题时往往导致高计算成本和延迟,产生‘过度思考’现象。本文旨在解决这一问题,探索如何让 R1 风格模型根据问题复杂性自适应地决定是否进行显式推理,从而在准确性和效率之间取得平衡。

Method

本文提出了 AutoThink,一个多阶段强化学习(RL)框架,通过以下核心步骤实现自适应推理:

Experiment

实验在五个主流数学基准数据集(MATH, Minerva, Olympiad, AIME24, AMC23)上进行,基于三种 R1 风格模型(DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-Preview-1.5B)测试 AutoThink 的效果:

Further Thoughts

从更广泛的视角来看,AutoThink 的自适应推理框架不仅限于数学推理任务,其核心思想——通过最小化提示和奖励设计实现行为调控——可能适用于其他需要动态资源分配的领域,如自然语言理解中的对话系统或多模态任务中的图像描述生成。然而,论文中提到的‘奖励黑客’问题提示我们,单纯依赖 RL 奖励机制可能不足以完全控制模型行为,未来可以探索结合监督微调(SFT)或直接偏好优化(DPO)来进一步约束推理与非推理模式的分离。此外,模型无法控制整体响应长度这一局限性在实际应用中可能成为瓶颈,尤其是在对延迟敏感的场景中,是否可以引入预算感知的推理生成机制(如 Qwen3 的方法)是一个值得探索的方向。最后,考虑到不同任务对推理深度的需求差异,是否可以通过跨领域迁移学习,将 AutoThink 的策略应用于非数学推理任务,也是一个有趣的研究方向。



Previous Post
Reward Reasoning Model
Next Post
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed