Skip to content
Go back 2505.11827 arXiv logo

Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

Published:  at  11:13 AM
91.13 🤔

本文提出Long⊗Short框架,通过长思维和短思维LLM协作推理,利用自动思维分块、冷启动SFT和多轮RL优化,显著提升推理效率,在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型,同时减少token长度超80%。

Large Language Model, Reinforcement Learning, Reasoning, Efficiency, Multimodality

Yansong Ning, Wei Li, Jun Fang, Naiqiang Tan, Hao Liu

The Hong Kong University of Science and Technology (Guangzhou), Didichuxing Co. Ltd, The Hong Kong University of Science and Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)中的长链式思维(Long CoT)推理通过增加推理过程的长度显著提升了在复杂任务(如数学奥林匹克、科学推理等)上的表现。然而,过长的token长度成为主要瓶颈,限制了推理效率和实际应用。现有方法在压缩CoT长度时,往往对所有思维一视同仁,忽略了不同思维在推理中的重要性差异,导致无法实现更简洁有效的推理。本文旨在解决这一问题,通过分析思维的重要性,提出一种高效推理框架,优化长CoT推理的效率与效果。

Method

本文提出了Long⊗Short框架,核心思想是通过两个LLM协作解决推理问题:一个长思维LLM负责生成重要的详细思维,另一个短思维LLM负责高效生成剩余的简洁思维。具体步骤如下:

批判性思考:虽然方法创新地将思维重要性量化并引入协作推理,但蒙特卡洛滚动的计算成本较高,且联合度量指标的实际效果依赖于主观设定的惩罚参数(如δ=0.25),可能导致评估偏差。此外,SFT和RL的训练数据合成方式可能引入噪声,影响模型泛化能力。

Experiment

实验基于Qwen2.5-7B和Llama3.1-8B模型,在五个广泛使用的基准数据集(MATH 500, AIME 2024/2025, AMC 2023, GPQA Diamond)上进行评估,比较了Long⊗Short与蒸馏版本模型(DeepSeek-R1-Distill系列)的性能。实验设置包括冷启动SFT阶段和多轮RL训练,评估指标为Pass@1准确率、平均token长度和准确率-效率分数(AES)。

Further Thoughts

Long⊗Short框架通过区分思维重要性来优化推理效率的思路具有启发性,但其依赖于蒙特卡洛滚动和多轮RL的高计算成本可能限制其在大规模工业应用中的可行性。未来可以探索更轻量级的思维重要性评估方法,例如基于注意力机制的动态权重分配,而非依赖昂贵的模拟。此外,这种长短思维协作的范式是否能推广到其他领域(如多模态任务或实时交互系统)值得进一步研究,尤其是在资源受限的环境下如何平衡效果与效率。另一个有趣的方向是与最近的联邦学习(Federated Learning)结合,将长思维和短思维模型分布在不同设备上协作推理,以解决隐私和计算资源分散的问题,但需要解决模型间通信延迟和一致性挑战。总体而言,本文提供了一个新颖视角,但需要在更广泛的任务和更严谨的实验设计下进一步验证其普适性和稳健性。



Previous Post
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training
Next Post
Training Language Models to Reason Efficiently