Skip to content
Go back 2505.14009 arXiv logo

Activation-Guided Consensus Merging for Large Language Models

Published:  at  11:19 AM
90.71 🤔

本文提出Activation-Guided Consensus Merging (ACM),通过基于激活值互信息(MI)的层级权重系数调整,实现大型语言模型在Long-to-Short推理任务中的高效合并,显著减少输出冗余并提升推理精度,尤其在小规模模型上效果明显。

Large Language Model, Reasoning, Efficiency, Pre-training, Fine-tuning

Yuxuan Yao, Shuqi Liu, Zehua Liu, Qintong Li, Mingyang Liu, Xiongwei Han, Zhijiang Guo, Han Wu, Linqi Song

City University of Hong Kong, Huawei Noah’s Ark Lab, University of Hong Kong, Hong Kong University of Science and Technology (Guangzhou), Hong Kong University of Science and Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)在认知能力上经历了从快速直觉处理(System 1)到深入分析推理(System 2)的演变。System 1模型擅长快速响应,但在复杂推理任务上表现不佳;而System 2模型通过迭代自评估和错误修正提升了推理能力,却带来了冗长输出和计算效率低下的问题。这种双系统矛盾催生了Long-to-Short (L2S)框架,旨在结合System 2的分析深度与System 1的操作效率。传统的训练方法和提示方法在效率和稳定性上存在显著挑战,而模型合并(Model Merging)作为一种无需额外训练开销的策略,成为整合不同模型能力的有前景方向。然而,现有合并方法常假设各层权重重要性一致,忽视了神经网络层级的功能异质性,导致任务特定能力的保留不足。本文提出了一种基于激活值互信息(Mutual Information, MI)的合并方法,旨在解决层级权重分配问题,提升合并模型在L2S任务和一般任务中的表现。

Method

本文提出了Activation-Guided Consensus Merging (ACM),一种基于激活值的模型合并框架,核心思想是通过计算预训练模型(PT)和微调模型(FT)在各层激活值之间的互信息(MI),动态确定层级特定的合并权重系数。具体步骤如下:

关键特点:ACM无需梯度计算或额外训练,作为即插即用框架可与现有合并方法(如Task Arithmetic和TIES-Merging)结合。然而,方法对校准数据集的选择和MI计算的具体实现细节未充分披露,可能影响其普适性。此外,理论分析中激活值与权重重要性关系的推导基于泰勒展开近似,忽略了高阶项,可能在某些情况下不够严谨。

Experiment

实验分为Long-to-Short (L2S)合并任务和一般模型合并任务两部分,旨在验证ACM的有效性。

Further Thoughts

ACM提供了一个有趣的视角,即通过激活值的互信息来捕捉模型层级的功能异质性,这可能启发未来在模型压缩和知识蒸馏领域的研究。然而,我对其理论基础的严谨性持保留态度,特别是激活值与权重重要性关系的推导过于依赖近似,可能在复杂任务或非线性激活函数下失效。此外,实验结果在大模型上的表现不佳,提示我们需要进一步探讨参数冗余对合并策略的影响,或许可以结合低秩分解(如LoRA)来缓解这一问题。另一个值得思考的方向是,ACM是否可以扩展到多模态模型的合并中,例如结合视觉基础模型和语言模型,是否仍能通过MI有效捕捉跨模态的层级差异?此外,与近期的一些工作(如基于RLHF的模型对齐方法)相比,ACM的无训练特性是一个优势,但其精度提升空间有限,未来可以探索如何将ACM与轻量级微调结合,以在效率和性能之间找到更好的平衡点。



Previous Post
AdaptThink: Reasoning Models Can Learn When to Think
Next Post
Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs