本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Human-AI Interaction
Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
Apple, Duke University
Generated by grok-3
Background Problem
大型语言模型(LLM)在复杂多跳推理任务中通过长链式思考(Chain-of-Thought, CoT)展现了强大的能力,但传统的’先思考后回答’范式存在两大问题:一是时间到首token(TTFT)过长,导致实时交互体验差;二是中间推理步骤可能出错并累积,导致最终答案不准确。本文提出了一种交错推理(Interleaved Reasoning)范式,旨在通过强化学习(RL)训练模型交替进行思考和回答,从而显著降低TTFT并提高推理准确性。
Method
本文提出了一种基于强化学习(RL)的交错推理训练范式,核心思想是让模型在多跳推理任务中交替生成思考和回答片段,以减少TTFT并提供可验证的中间反馈。具体方法如下:
- 问题分解与交错生成:将多跳问题分解为一系列中间步骤,模型在每个步骤中生成思考片段(
)和中间答案片段( ),最终形成完整的推理路径和最终答案。 - 强化学习框架:使用RL优化策略模型,目标是最大化期望奖励,同时通过KL散度约束与参考模型的偏差。奖励函数包括格式奖励(确保交错格式正确)、最终准确率奖励(评估最终答案正确性)和条件中间准确率奖励(鼓励正确的中间答案)。
- 条件奖励机制:中间奖励仅在满足特定条件时应用(最终答案正确、格式有效、当前批次准确率提升),以避免模型过分关注局部正确性而忽视整体目标。
- 奖励计算策略:探索了三种中间奖励计算方法(全对或全错、部分得分、时间折扣),其中时间折扣方法(早期正确步骤奖励更高)效果最佳。
批判性思考:虽然方法创新性较强,但条件奖励机制依赖于训练过程中的准确率提升,可能在训练初期或数据噪声较大的情况下效果不佳。此外,交错推理可能导致模型过早生成结论,潜在影响最终答案质量,论文对此讨论不足。
Experiment
实验在五个不同数据集上进行,包括领域内数据集(K&K和Musique,用于训练和评估)和领域外数据集(GPQA、MMLU、MATH,用于测试泛化能力)。使用的模型为Qwen2.5的1.5B和7B参数版本,基线包括直接推理、CoT、SFT和传统’先思考后回答’的RL方法。评估指标为Pass@1准确率和TTFT(首token生成时间,定义为首个答案token在完整响应中的相对位置)。
- 结果:基本交错推理方法(无中间奖励)在保持与传统方法相当准确率的同时,TTFT平均降低超过80%。引入条件中间奖励后,准确率进一步提升,1.5B模型平均提升19.3%,7B模型提升5.7%,TTFT仍保持显著降低(约80-82%)。
- 泛化能力:仅在具有中间答案的数据集上训练,模型在未见过的复杂推理任务(如MATH、GPQA、MMLU)上仍表现出较强的准确率和低TTFT,显示出良好的泛化性。
- 实验设计分析:实验设置较为全面,涵盖了不同规模模型、多种RL算法(PPO、GRPO、REINFORCE++)和奖励策略。然而,训练数据仅限于具有中间答案的数据集,未探讨无中间答案数据时的适用性,可能限制方法的普适性。此外,TTFT的相对位置定义虽便于比较,但未反映实际计算时间,可能掩盖真实交互场景中的延迟问题。
- 批判性思考:虽然结果令人印象深刻,但实验未充分讨论交错推理可能引入的额外计算开销(如频繁切换思考和回答模式的成本),也未分析中间答案错误对用户体验或后续推理的影响。
Further Thoughts
交错推理的概念为提升大型语言模型的交互性和推理能力提供了一个有前景的方向,但其实际应用中仍面临挑战。例如,如何确保中间答案的质量和避免用户对不完整结论的误解,是一个亟待解决的问题。此外,是否可以通过结合外部工具(如搜索引擎或知识库)来进一步增强交错推理的效果,值得探索。另一个有趣的方向是与多模态系统的结合,交错推理是否能在视觉-语言任务中通过逐步呈现图像分析结果来提升用户体验?同时,考虑到不同文化背景下的用户对增量反馈的接受度可能不同,未来的研究可以探讨文化因素对交错推理应用的影响。