本文提出Activation-Guided Consensus Merging (ACM),通过基于激活值互信息(MI)的层级权重系数调整,实现大型语言模型在Long-to-Short推理任务中的高效合并,显著减少输出冗余并提升推理精度,尤其在小规模模型上效果明显。
Large Language Model, Reasoning, Efficiency, Pre-training, Fine-tuning
Yuxuan Yao, Shuqi Liu, Zehua Liu, Qintong Li, Mingyang Liu, Xiongwei Han, Zhijiang Guo, Han Wu, Linqi Song
City University of Hong Kong, Huawei Noah’s Ark Lab, University of Hong Kong, Hong Kong University of Science and Technology (Guangzhou), Hong Kong University of Science and Technology
Generated by grok-3
Background Problem
大型语言模型(LLMs)在认知能力上经历了从快速直觉处理(System 1)到深入分析推理(System 2)的演变。System 1模型擅长快速响应,但在复杂推理任务上表现不佳;而System 2模型通过迭代自评估和错误修正提升了推理能力,却带来了冗长输出和计算效率低下的问题。这种双系统矛盾催生了Long-to-Short (L2S)框架,旨在结合System 2的分析深度与System 1的操作效率。传统的训练方法和提示方法在效率和稳定性上存在显著挑战,而模型合并(Model Merging)作为一种无需额外训练开销的策略,成为整合不同模型能力的有前景方向。然而,现有合并方法常假设各层权重重要性一致,忽视了神经网络层级的功能异质性,导致任务特定能力的保留不足。本文提出了一种基于激活值互信息(Mutual Information, MI)的合并方法,旨在解决层级权重分配问题,提升合并模型在L2S任务和一般任务中的表现。
Method
本文提出了Activation-Guided Consensus Merging (ACM),一种基于激活值的模型合并框架,核心思想是通过计算预训练模型(PT)和微调模型(FT)在各层激活值之间的互信息(MI),动态确定层级特定的合并权重系数。具体步骤如下:
- 激活值提取:使用共享的校准数据集,计算PT和FT模型在每一层的激活值(表示为和,其中为层索引)。
- 互信息计算:通过公式计算各层PT与FT激活值之间的MI,MI值反映了两模型在该层的相似度。
- 权重系数归一化:利用sigmoid函数将MI值转化为权重系数,公式为,其中为超参数,MI值越高(相似度越高),权重系数越低,以减少冗余;MI值越低(差异越大),权重系数越高,以保留FT模型的特定能力。
- 参数合并:基于任务向量(定义为),对每一层分别应用权重系数进行加权合并,公式为。
关键特点:ACM无需梯度计算或额外训练,作为即插即用框架可与现有合并方法(如Task Arithmetic和TIES-Merging)结合。然而,方法对校准数据集的选择和MI计算的具体实现细节未充分披露,可能影响其普适性。此外,理论分析中激活值与权重重要性关系的推导基于泰勒展开近似,忽略了高阶项,可能在某些情况下不够严谨。
Experiment
实验分为Long-to-Short (L2S)合并任务和一般模型合并任务两部分,旨在验证ACM的有效性。
- L2S合并任务:使用Qwen2.5-Math(1.5B、7B、14B、32B)和DeepSeek-R1系列模型,在GSM8K、MATH500等推理数据集以及HumanEval-Pro等代码生成数据集上评估。校准数据采用s1K数据集,通过K-means聚类和均匀采样处理。结果显示,ACM与Task Arithmetic (ACM-TA)和TIES-Merging (ACM-TIES)结合后,在7B模型上分别达到55.5%和55.8%的平均精度,优于基准方法(如Task Arithmetic的53.5%),且输出长度减少55.3%;在1.5B模型上精度提升至41.4%和43.3%,长度减少73.5%。然而,在14B和32B大模型上,长度压缩效果有限,有时甚至超过慢速推理模型,显示出大模型参数冗余对长度优化的挑战。实验设置较为全面,涵盖多种模型规模和任务类型,但对校准数据集的选择依据和MI计算的具体参数未详细说明,可能影响结果的可重复性。
- 一般模型合并任务:在LLaMA系列模型(包括Llama-2-7b-hf、MammoMATH、CodeLlama-7b)上测试,数据集包括GSM8K、HellaSwag和MBPP-Pro。结果显示ACM-TA和ACM-TIES在HellaSwag上表现一致提升,但在MBPP-Pro和GSM8K上提升有限,可能是由于任务向量系数较低和基线模型性能差异较大。实验设计合理,但任务覆盖面较窄,未能充分体现ACM在多样任务上的普适性。
- 进一步分析:消融研究表明ACM对超参数的鲁棒性较强,权重系数波动较小;与基于RL的训练方法相比,ACM在无训练成本下实现了类似长度压缩率(约51%),但精度提升幅度不如训练方法。总体而言,实验结果部分支持ACM的有效性,尤其在小规模模型和L2S任务上,但在大模型和一般任务上的表现存在局限,实验设计中对关键参数和数据集选择的透明度不足。
Further Thoughts
ACM提供了一个有趣的视角,即通过激活值的互信息来捕捉模型层级的功能异质性,这可能启发未来在模型压缩和知识蒸馏领域的研究。然而,我对其理论基础的严谨性持保留态度,特别是激活值与权重重要性关系的推导过于依赖近似,可能在复杂任务或非线性激活函数下失效。此外,实验结果在大模型上的表现不佳,提示我们需要进一步探讨参数冗余对合并策略的影响,或许可以结合低秩分解(如LoRA)来缓解这一问题。另一个值得思考的方向是,ACM是否可以扩展到多模态模型的合并中,例如结合视觉基础模型和语言模型,是否仍能通过MI有效捕捉跨模态的层级差异?此外,与近期的一些工作(如基于RLHF的模型对齐方法)相比,ACM的无训练特性是一个优势,但其精度提升空间有限,未来可以探索如何将ACM与轻量级微调结合,以在效率和性能之间找到更好的平衡点。