Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

本文通过模型融合方法整合快速思维和慢速推理能力，实现长到短推理，在7B模型上将响应长度压缩高达55%且保持性能，提出了一种高效解决大语言模型过度思考问题的方案。

Large Language Model, Reasoning, Efficiency, Pre-training, Fine-tuning

Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan

Huawei Noah’s Ark Lab

Generated by grok-3

Background Problem

大语言模型（LLM）从快速直觉的System 1推理向深思熟虑的System 2推理转变，显著提升了复杂任务的处理能力。然而，System 2推理常伴随过度思考（overthinking）问题，导致冗长的推理步骤和效率低下，而输出质量的提升却不成比例。长到短推理（Long-to-Short, L2S）旨在平衡推理深度与效率，但现有方法如监督微调（SFT）、强化学习（RL）和提示工程（Prompt Engineering）要么计算成本高，要么不稳定。本文提出通过模型融合（Model Merging）整合System 1的快速思维和System 2的严谨推理，以低成本、高效的方式解决过度思考问题，同时保持推理质量。

Method

本文提出通过模型融合（Model Merging）实现长到短推理（L2S），核心思想是将快速思维（System 1）和慢速推理（System 2）模型的参数整合为一个统一模型，无需额外训练即可兼顾效率和性能。具体方法分为三类：

任务向量融合（Task-Vector based Merging）：通过计算微调模型与预训练模型的参数差异（任务向量），并以加权方式聚合到基础模型中。代表方法包括任务算术（Task Arithmetic, TA）和TIES-Merging，强调通过加权或冲突解决机制减少噪声。
SVD基融合（SVD-based Merging）：利用任务向量的低秩特性，通过奇异值分解（SVD）减少向量干扰，代表方法包括LoRE-Merging和Twin-Merging。
激活信息融合（Activation-based Merging）：基于输入激活信息动态调整融合系数，强调关键参数保护和敏感性分析，代表方法包括AIM和Sens-Merging。

关键步骤：首先选择一对快速和慢速推理模型（如Qwen2.5-Math-7B和DeepSeek-R1-7B），然后应用上述融合方法调整参数权重，最终生成一个能够在推理长度和准确性之间平衡的新模型。

批判性思考：虽然方法设计具有创新性，但任务向量和SVD方法在理论上依赖于模型参数分布的相似性，当快速和慢速模型训练策略差异较大时（如14B/32B模型），融合效果可能受限。此外，激活信息方法对校准数据的高度依赖性未被充分解决，这可能限制其实际应用场景。论文未提供理论分析支持这些方法的适用范围，显得研究深度不足。

Experiment

实验在多个规模的模型（1.5B、7B、14B、32B）上进行，数据集包括GSM8K、MATH500、AIME24等常见推理基准，使用Qwen评估工具包，确保可重复性。快速思维模型采用少样本（few-shot）设置，慢速推理模型采用零样本（zero-shot）设置，激活信息方法使用s1K数据集进行校准。

结果分析：

在7B模型上，任务向量方法（如TA和TIES-Merging）实现了约50%的响应长度压缩，同时保持或略微提升准确性（例如GSM8K上+0.3%）；激活信息方法（如AIM-TIES）表现最佳，长度压缩达55.3%，准确性提升显著（平均+1.9）。
在1.5B模型上，融合方法在简单任务上有效，但在复杂任务（如AIME24）上性能下降明显，表明小模型难以通过融合学习长链推理能力。
在14B和32B模型上，推理性能基本保持，但长度压缩效果不显著，甚至有时增加（如Sens-Merging），与论文目标不符。
额外分析表明，融合模型保留了自批判和自纠正能力，且响应长度与问题难度正相关。

实验设计评价：实验覆盖了多种模型规模和数据集，设置较为全面，但存在以下问题：1）激活信息方法对校准数据敏感，论文未测试不同数据分布的影响，结论可能过于乐观；2）超参数敏感性问题未解决，实验中手动调整参数增加了结果的不确定性；3）大模型上长度压缩失败的原因未深入探讨，仅归因于性能差距，缺乏数据支持。总体而言，7B模型结果令人印象深刻，但方法在不同规模上的不一致表现降低了其普适性。

Further Thoughts

尽管本文在模型融合用于长到短推理方面提供了有价值的初步探索，但其方法在不同规模模型上的表现差异引发了我的思考。特别是小模型（1.5B）无法有效学习长链推理能力，这可能与模型容量限制有关，未来可以探索是否通过知识蒸馏（Knowledge Distillation）或分层融合策略缓解这一问题。此外，大模型（14B/32B）上长度压缩的失败可能与训练策略差异（如直接微调 vs 强化学习）导致的参数分布不一致有关，这提示我们需要在融合前对模型进行某种对齐处理，例如通过中间预训练模型作为桥梁，这在论文中已有初步尝试但未深入。

另一个值得关注的点是激活信息融合方法对校准数据的依赖性，这与当前多模态系统（Multimodal Systems）中数据选择对性能的影响有相似之处。未来研究可以借鉴多模态领域的数据选择优化方法，开发更鲁棒的校准策略。此外，从短到长推理的初步尝试显示了模型融合的双向潜力，这可能与元学习（Meta-Learning）中的任务适应性研究相结合，探索如何通过动态权重调整实现推理风格的灵活切换。

最后，我认为本文缺乏对融合方法理论基础的探讨，例如任务向量低秩特性的数学依据或激活信息对参数重要性评估的机制，这限制了方法的进一步优化。未来可以结合神经网络可解释性（Interpretability）研究，深入分析融合过程中参数变化对推理行为的影响，为开发更通用、更高效的融合策略提供指导。