Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation

本文提出了一种动态整合框架，通过自适应选择网络和动态加权融合策略从多个LLM中聚合知识，显著提升性能并减少50%的知识干扰，同时保持计算效率。

Large Language Model, Knowledge Fusion, Adaptive Systems, Efficiency, Multimodality

Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang

Northeastern University, Peking University, Harvard University, Google

Generated by grok-3

Background Problem

大型语言模型（LLM）在多个领域展现出强大潜力，但通过传统微调持续改进其性能仍面临挑战，尤其是在整合来自其他专业化LLM的能力时。现有方法如集成和权重合并需要大量内存，且难以适应不断变化的数据环境，而知识融合方法常因任务间干扰导致性能下降。本文旨在解决如何在不增加内存和计算开销的情况下，通过从多个LLM中自适应选择和聚合知识，构建一个更强大的单一模型，同时减少知识干扰。

Method

本文提出了一种动态整合框架，通过以下核心组件实现多LLM知识聚合：

自适应选择网络（ASN）：基于概率分布矩阵评估源LLM的性能，动态选择最相关的候选模型。ASN通过三层线性网络和GELU激活函数计算每个模型的得分，并通过softmax转换为选择概率，结合动态阈值机制（τ=0.15）筛选候选者，确保至少选择一个模型以避免空选问题。
动态加权融合策略：根据选择概率对选定模型的概率分布进行加权求和，强调更有影响力的模型对最终输出的贡献，确保融合过程反映各模型的内在优势。
反馈驱动的损失函数：引入反馈损失（Lfeed），通过计算重要性值的变异系数平方（CV^2）来避免选择器持续偏向少数模型，促进选择分布的均匀性。总损失函数结合语言建模损失（Llm）、融合损失（Lfuse）和反馈损失（Lfeed），以平衡性能和选择多样性。 批判性思考：虽然ASN的设计理念新颖，但其依赖概率分布矩阵的选择机制可能因模型架构异构性而引入偏差，论文未充分探讨如何校准不同模型的分布差异。此外，动态加权融合的权重计算缺乏透明度，可能在长期训练中累积误差，尤其是在大规模模型融合时。反馈损失的引入虽然有助于避免选择偏见，但其超参数设置（λfuse=0.1, λfeed=0.5）依赖网格搜索，缺乏理论依据，可能影响框架的泛化能力。

Experiment

实验在多个基准数据集上评估了所提出的Fusion-X框架，包括常识推理（Common Sense, CS）、推理任务（Big-Bench Hard, BBH）、多任务语言理解（MMLU）和代码生成（MultiPL-E, ME）。

数据集与设置：以Llama-2-7B等模型为目标模型，融合多个不同规模和架构的源模型（如Llama-160M, OpenLLaMA-7B, Starcoder2-7B等），使用MiniPile数据集进行持续训练。实验分为三个规模（Fusion-X -T, -S, -B），对比方法包括FuseLLM和持续训练基线（-CT）。
结果分析：Fusion-X在所有基准上均表现出性能提升，例如在CS任务中平均提升1.91%-1.92%，在BBH任务中平均提升5.3%，相比FuseLLM的2.7%有显著改进。知识干扰减少了50%，表现为性能下降任务比例的降低（如FuseLLM在BBH上有10个任务下降，而Fusion-X仅5个）。此外，Fusion-X在训练效率上更优，仅需50%训练步数即可达到类似困惑度（perplexity）。
实验设计的合理性与不足：实验设置覆盖了多种模型规模和任务类型，展示了框架的扩展性。然而，对比实验中FuseLLM的实现细节未完全披露，可能影响公平性。此外，知识干扰的减少虽有数据支持，但未深入分析干扰的具体来源（如是否与特定任务或模型相关），这限制了结果的可解释性。模型在某些任务上的性能下降（如BBH中的Geometric Shapes）也未被充分讨论，可能与选择阈值或权重分配策略有关。

Further Thoughts

本文提出的自适应选择和动态融合框架为多模型整合提供了一个有前景的方向，但其实际应用中的一些挑战值得进一步探索。例如，如何在推理阶段实时执行自适应选择而不会显著增加延迟？是否可以通过引入在线学习机制，使框架能够动态适应新加入的模型或数据分布变化？此外，知识干扰的减少虽然显著，但其根本原因可能与模型间的知识冲突或任务特异性有关，未来可以考虑结合知识分解技术（如将模型知识按任务或领域拆分）来进一步优化融合过程。另一个有趣的方向是探索该框架在跨模态任务中的潜力，例如将语言模型与视觉基础模型结合，是否也能通过类似的自适应选择机制减少模态间的干扰？这种思路可能与近年来的多模态系统研究（如Vision-Language Models）产生有趣的交叉启发。