Skip to content
Go back 2505.19640 arXiv logo

Interleaved Reasoning for Large Language Models via Reinforcement Learning

Published:  at  11:21 AM
85.73 🤔

本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Human-AI Interaction

Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra

Apple, Duke University

Generated by grok-3

Background Problem

大型语言模型(LLM)在复杂多跳推理任务中通过长链式思考(Chain-of-Thought, CoT)展现了强大的能力,但传统的’先思考后回答’范式存在两大问题:一是时间到首token(TTFT)过长,导致实时交互体验差;二是中间推理步骤可能出错并累积,导致最终答案不准确。本文提出了一种交错推理(Interleaved Reasoning)范式,旨在通过强化学习(RL)训练模型交替进行思考和回答,从而显著降低TTFT并提高推理准确性。

Method

本文提出了一种基于强化学习(RL)的交错推理训练范式,核心思想是让模型在多跳推理任务中交替生成思考和回答片段,以减少TTFT并提供可验证的中间反馈。具体方法如下:

批判性思考:虽然方法创新性较强,但条件奖励机制依赖于训练过程中的准确率提升,可能在训练初期或数据噪声较大的情况下效果不佳。此外,交错推理可能导致模型过早生成结论,潜在影响最终答案质量,论文对此讨论不足。

Experiment

实验在五个不同数据集上进行,包括领域内数据集(K&K和Musique,用于训练和评估)和领域外数据集(GPQA、MMLU、MATH,用于测试泛化能力)。使用的模型为Qwen2.5的1.5B和7B参数版本,基线包括直接推理、CoT、SFT和传统’先思考后回答’的RL方法。评估指标为Pass@1准确率和TTFT(首token生成时间,定义为首个答案token在完整响应中的相对位置)。

Further Thoughts

交错推理的概念为提升大型语言模型的交互性和推理能力提供了一个有前景的方向,但其实际应用中仍面临挑战。例如,如何确保中间答案的质量和避免用户对不完整结论的误解,是一个亟待解决的问题。此外,是否可以通过结合外部工具(如搜索引擎或知识库)来进一步增强交错推理的效果,值得探索。另一个有趣的方向是与多模态系统的结合,交错推理是否能在视觉-语言任务中通过逐步呈现图像分析结果来提升用户体验?同时,考虑到不同文化背景下的用户对增量反馈的接受度可能不同,未来的研究可以探讨文化因素对交错推理应用的影响。



Previous Post
AI in Money Matters
Next Post
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models