Skip to content
Go back 2505.13417 arXiv logo

AdaptThink: Reasoning Models Can Learn When to Think

Published:  at  11:11 AM
90.77 🤔

本文提出 AdaptThink,一种基于强化学习的算法,通过自适应选择 ThinkingNoThinking 模式显著降低推理模型的响应长度(平均减少 40-53%)并提升准确率(平均提升 2.3-2.4%),在数学任务上展现了效率与性能的良好平衡。

Reinforcement Learning, Reasoning, Efficiency, Large Language Model, Human-AI Interaction

Jiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li

Tsinghua University

Generated by grok-3

Background Problem

近年来,大型推理模型(如 OpenAI o1 和 DeepSeek-R1)通过生成冗长的思考过程(Thinking)在复杂任务上取得了显著成果,但这种过程在简单任务中往往导致不必要的计算开销和延迟,影响用户体验。现有方法多集中于缩短响应长度,而忽略了是否需要思考这一根本问题。受 NoThinking 方法(通过提示跳过思考直接生成答案)的启发,本文研究如何让模型根据问题难度自适应选择思考模式(Thinking 或 NoThinking),以在性能和效率之间取得更好的平衡。

Method

本文提出了 AdaptThink,一种基于强化学习(RL)的算法,旨在训练推理模型根据问题难度自适应选择思考模式。具体方法如下:

Experiment

实验基于两个推理模型(DeepSeek-R1-Distill-Qwen-1.5B 和 7B)进行,训练数据为 DeepScaleR(40K 数学问题),评估数据集包括 GSM8K(小学数学)、MATH500(高中竞赛数学)和 AIME 2024(奥林匹克级数学),难度递增。评估指标为准确率和响应长度。

Further Thoughts

AdaptThink 的自适应模式选择为推理模型的效率优化提供了一个新颖视角,但其依赖 RL 的黑箱优化可能限制了方法的可解释性和可控性。未来是否可以结合显式的难度评估机制(如基于问题特征的分类器)来辅助模式选择?这或许能减少训练成本并提升稳定性。此外,论文中提到的 implicit thinking 问题提示我们,模型在 NoThinking 模式下可能仍执行隐式推理,这与心理学中人类直觉决策(System 1)中仍包含快速推理的特性类似。如果能进一步区分‘纯答案输出’与‘隐式推理’,或许能更精准地控制效率。另一方面,AdaptThink 的思路可能不仅限于数学推理,若能扩展到代码生成或多模态任务(如视觉推理),其在实际应用中的价值将进一步提升,但这需要解决跨领域难度评估的挑战。结合其他研究(如基于上下文长度的动态推理调整),AdaptThink 或可成为构建高效 AI 助手的重要一环。



Previous Post
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately
Next Post
Activation-Guided Consensus Merging for Large Language Models