本文提出了一种自适应深度推理方法,通过监督微调和强化学习使大型语言模型根据问题复杂性自动切换长链和短链推理模式,并在数学任务上展示了有效性和效率提升。
Large Language Model, Reinforcement Learning, Supervised Learning, Reasoning, Efficiency
Yunhao Wang, Yuhao Zhang, Tinghao Yu, Can Xu, Feng Zhang, Fengzong Lian
Tencent Hunyuan Team
Generated by grok-3
Background Problem
大型语言模型(LLMs)在处理复杂任务时通过长链推理(Chain-of-Thought, CoT)展现了强大能力,但冗长的推理步骤显著增加了计算成本,限制了其在实际场景中的部署。近年来,研究者尝试通过提示工程、监督微调和强化学习等方法缩短推理链长度,但这些方法仍需初始推理阶段或手动控制推理模式。本文旨在解决这一问题,提出一种根据问题复杂性自动在长链和短链推理之间切换的方法,以优化推理效率并降低成本。
Method
本文提出了一种自适应深度推理方法,通过以下步骤实现长链和短链推理的自动切换:
- 监督微调(SFT):使用包含长链和短链推理数据的混合数据集对基础模型进行微调,数据分为带指令和无指令两类,确保模型具备两种推理能力并支持显式指令控制。
- 强化学习(RL):采用组相对策略优化(GRPO)方法,通过长短自适应组奖励策略平衡两种推理模式。具体而言,根据对同一提示的采样准确率判断问题复杂性,为短链或长链推理分配不同奖励(例如,简单问题中短链正确答案奖励为+1.5,长链为+1.0);同时引入奖励预热和软长度惩罚以稳定训练并减少长链冗余。
- 推理模式切换损失(RMSL):针对首个生成token设计基于logit的边际排名损失,增强模型在长链和短链模式间切换的能力,解决RL中首个token优化不足的问题。
批判性思考:该方法虽然创新,但奖励设计过于依赖采样准确率,可能因模型初始偏差或数据集特性导致问题复杂性判断不准确。此外,模式切换损失的引入增加了训练复杂性,其实际效果可能因超参数(如边际值和平衡系数)调节不当而受限。
Experiment
实验在多个数学基准数据集上进行,包括MATH-500、AIME-100、AIME 2024、AIME 2025、Super GPQA Math和Olympiad Bench Math,涵盖不同难度级别。训练数据包括220k长链和短链推理条目(SFT阶段)及20k问题(RL阶段),基础模型为Qwen-2.5-Math-Instruct-7B。
结果分析:
- SFT阶段结果表明,混合数据训练的模型在长链和短链推理能力上均接近单一模式训练的模型,为自适应切换奠定了基础。
- RL阶段结果显示,提出的模型(RL-AR-Exp1、Exp2及RMSL)能在简单数据集(如MATH-500)上减少长链推理比例(低至22%),在复杂数据集(如AIME-2024)上增加长链比例(高达100%),同时保持较高准确率。例如,RL-AR-RMSL在MATH-500上准确率为89.2%,长链比例为39%;在AIME-2024上准确率为63.3%,长链比例为100%。
批判性思考:实验设置覆盖了不同难度数据集,较为全面,但结果显示模型在高难度问题上几乎完全依赖长链推理,短链推理能力似乎未充分发挥。此外,论文未提供计算成本(如推理时间或GPU小时)的具体数据,仅报告了平均响应token数,难以全面评估效率提升。实验设计也未考虑数据集偏差或模型对问题复杂性判断的鲁棒性,可能高估了方法效果。
Further Thoughts
本文提出的自适应推理方法在数学推理领域展现了一定潜力,但其核心机制——基于采样准确率的问题复杂性判断——可能在其他领域(如自然语言推理或多模态任务)中遇到挑战,因为不同任务的复杂性特征可能无法通过简单的准确率指标捕捉。未来研究可以探索结合上下文语义分析或任务元信息来改进复杂性评估。此外,该方法与最近的一些工作(如基于提示工程的动态推理长度控制)有潜在结合点,例如是否可以通过预训练阶段引入任务复杂性先验知识,减少强化学习阶段的计算负担。另一个值得思考的方向是,该方法在高难度任务上过度依赖长链推理的现象是否可以通过引入中间推理模式(如中等长度链)来缓解,从而进一步优化效率和准确率之间的平衡。