Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

本文提出Long⊗Short框架，通过长思维和短思维LLM协作推理，利用自动思维分块、冷启动SFT和多轮RL优化，显著提升推理效率，在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型，同时减少token长度超80%。

Large Language Model, Reinforcement Learning, Reasoning, Efficiency, Multimodality

Yansong Ning, Wei Li, Jun Fang, Naiqiang Tan, Hao Liu

The Hong Kong University of Science and Technology (Guangzhou), Didichuxing Co. Ltd, The Hong Kong University of Science and Technology

Generated by grok-3

Background Problem

大型语言模型（LLMs）中的长链式思维（Long CoT）推理通过增加推理过程的长度显著提升了在复杂任务（如数学奥林匹克、科学推理等）上的表现。然而，过长的token长度成为主要瓶颈，限制了推理效率和实际应用。现有方法在压缩CoT长度时，往往对所有思维一视同仁，忽略了不同思维在推理中的重要性差异，导致无法实现更简洁有效的推理。本文旨在解决这一问题，通过分析思维的重要性，提出一种高效推理框架，优化长CoT推理的效率与效果。

Method

本文提出了Long⊗Short框架，核心思想是通过两个LLM协作解决推理问题：一个长思维LLM负责生成重要的详细思维，另一个短思维LLM负责高效生成剩余的简洁思维。具体步骤如下：

思维重要性分析：通过自动长CoT分块，将推理过程拆分为多个思维单元，并利用蒙特卡洛滚动（Monte Carlo Rollouts）评估每个思维的有效性和效率贡献，提出一个联合度量指标（结合准确率提升和长度惩罚），并理论上证明其偏差有上界。
冷启动监督微调（SFT）：基于思维重要性评分，合成冷启动数据，将高分思维分配给长思维LLM，低分思维分配给短思维LLM，分别对两个模型进行全参数微调，使其适应长思维和短思维的推理风格。
协同导向的多轮强化学习（RL）：提出异步策略优化方法，长思维和短思维LLM通过多轮对话协作推理，基于混合奖励函数（包括正确性、格式遵循和长度惩罚）优化策略，增强协作效率和推理能力。

批判性思考：虽然方法创新地将思维重要性量化并引入协作推理，但蒙特卡洛滚动的计算成本较高，且联合度量指标的实际效果依赖于主观设定的惩罚参数（如δ=0.25），可能导致评估偏差。此外，SFT和RL的训练数据合成方式可能引入噪声，影响模型泛化能力。

Experiment

实验基于Qwen2.5-7B和Llama3.1-8B模型，在五个广泛使用的基准数据集（MATH 500, AIME 2024/2025, AMC 2023, GPQA Diamond）上进行评估，比较了Long⊗Short与蒸馏版本模型（DeepSeek-R1-Distill系列）的性能。实验设置包括冷启动SFT阶段和多轮RL训练，评估指标为Pass@1准确率、平均token长度和准确率-效率分数（AES）。

结果：经过SFT和多轮RL训练，Qwen2.5-7B和Llama3.1-8B的性能接近其蒸馏版本（如DeepSeek-R1-Distill-Qwen-7B），准确率提升显著（如MATH 500上从74.8%提升至89.8%），同时token长度减少超过80%（从24,566降至约2,113）。AES指标也显示出效率和效果的良好平衡。
实验设计分析：实验设置覆盖了多个数据集，具备一定全面性，但数据集规模较小（如SFT数据仅1.4K样本），可能存在过拟合风险。蒙特卡洛滚动的次数（每思维5次）可能不足以稳定估计思维重要性。此外，AES指标中准确率和长度的权重设置（η=1, ς=3或-5）较为主观，可能影响结果解释。
批判性思考：结果看似令人印象深刻，但token长度减少80%同时保持接近蒸馏模型性能的结论可能过于乐观。实验未充分讨论潜在的cherry-picking数据或任务特性对结果的影响，也未与其他压缩方法（如DAST, Kimi k1.5）进行直接对比，缺乏基准验证。计算成本问题（蒙特卡洛和多轮RL）在实验中未量化，可能掩盖了方法的实际局限性。

Further Thoughts

Long⊗Short框架通过区分思维重要性来优化推理效率的思路具有启发性，但其依赖于蒙特卡洛滚动和多轮RL的高计算成本可能限制其在大规模工业应用中的可行性。未来可以探索更轻量级的思维重要性评估方法，例如基于注意力机制的动态权重分配，而非依赖昂贵的模拟。此外，这种长短思维协作的范式是否能推广到其他领域（如多模态任务或实时交互系统）值得进一步研究，尤其是在资源受限的环境下如何平衡效果与效率。另一个有趣的方向是与最近的联邦学习（Federated Learning）结合，将长思维和短思维模型分布在不同设备上协作推理，以解决隐私和计算资源分散的问题，但需要解决模型间通信延迟和一致性挑战。总体而言，本文提供了一个新颖视角，但需要在更广泛的任务和更严谨的实验设计下进一步验证其普适性和稳健性。