Skip to content
Go back 2505.13878 arXiv logo

InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models

Published:  at  11:19 AM
85.18 🤔

InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,通过序列级概率融合和优化策略,将多个源模型知识整合到枢轴模型中,显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。

Large Language Model, Preference Optimization, Model Fusion, Reinforcement Learning, Sequence Probability

Yanggan Gu, Zhaoyi Yan, Yuanyi Wang, Yiming Zhang, Qi Zhou, Fei Wu, Hongxia Yang

Reallm Labs, The Hong Kong Polytechnic University, Zhejiang University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理任务中表现出色,但单一模型往往无法在所有领域达到最优,因其架构、预训练数据和目标的差异导致各自具有不同优势。模型融合(Model Fusion)旨在通过轻量级训练方法将多个模型的知识整合到一个更强大的模型中。然而,现有研究主要集中在监督微调(SFT)阶段,而对偏好对齐(Preference Alignment)这一关键阶段的融合方法探索不足。现有方法如WRPO仅利用源模型的响应输出,丢弃概率信息,且忽略非偏好响应的对比信号,导致无法充分利用源模型能力。InfiFPO试图解决这一问题,通过在偏好优化阶段进行隐式模型融合,提升模型性能并避免词汇对齐难题。

Method

InfiFPO是一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,其核心思想和实现步骤如下:

批判性思考:虽然InfiFPO在理论上避免了词汇对齐问题,但序列级KL散度的计算可能对模型间的细粒度差异不够敏感,导致融合效果在某些任务上受限。此外,最大边际融合策略可能在源模型能力高度重叠或冲突时选择次优模型,论文未提供充分的应对机制。计算开销方面,尽管比其他融合方法更高效,但与标准DPO相比仍有额外负担,可能影响实际应用的可扩展性。

Experiment

InfiFPO的实验设计和结果如下:

批判性思考:实验结果表明InfiFPO在性能和效率上优于基线,但实验设计存在局限性:一是未充分测试在低资源环境或极度异构模型下的表现;二是对领域特定模型的选择性融合策略(仅在特定任务上融合)可能引入人为偏差,未探讨自动化选择机制;三是性能提升虽显著,但部分任务(如通用推理)提升幅度较小,可能是序列级融合对细粒度任务的适应性不足。总体而言,实验设置较为全面,但需更多场景验证其鲁棒性。

Further Thoughts

InfiFPO的序列级概率融合方法为模型协作和知识整合提供了一个新颖视角,但其局限性也启发了一些未来研究方向。首先,序列级KL散度可能无法捕捉模型间的细粒度差异,是否可以结合token级和序列级的混合策略,进一步提升融合效果?其次,最大边际融合策略在源模型能力冲突时的表现值得深入探讨,或许可以引入动态权重调整机制,基于任务特性自适应选择源模型。此外,InfiFPO的计算开销虽较其他融合方法低,但与标准DPO相比仍有差距,是否能与参数高效微调方法(如LoRA)结合,进一步降低资源需求?从跨领域角度看,InfiFPO的框架是否适用于多模态模型融合,例如将视觉基础模型与语言模型的概率分布进行整合?这可能为构建更全面的AI系统提供新思路。总之,InfiFPO的研究为偏好优化与模型融合的结合奠定了基础,但其实际应用中的鲁棒性和可扩展性仍需更多探索。



Previous Post
Competition Dynamics Shape Algorithmic Phases of In-Context Learning
Next Post
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization