InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models

InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法，通过序列级概率融合和优化策略，将多个源模型知识整合到枢轴模型中，显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。

Large Language Model, Preference Optimization, Model Fusion, Reinforcement Learning, Sequence Probability

Yanggan Gu, Zhaoyi Yan, Yuanyi Wang, Yiming Zhang, Qi Zhou, Fei Wu, Hongxia Yang

Reallm Labs, The Hong Kong Polytechnic University, Zhejiang University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理任务中表现出色，但单一模型往往无法在所有领域达到最优，因其架构、预训练数据和目标的差异导致各自具有不同优势。模型融合（Model Fusion）旨在通过轻量级训练方法将多个模型的知识整合到一个更强大的模型中。然而，现有研究主要集中在监督微调（SFT）阶段，而对偏好对齐（Preference Alignment）这一关键阶段的融合方法探索不足。现有方法如WRPO仅利用源模型的响应输出，丢弃概率信息，且忽略非偏好响应的对比信号，导致无法充分利用源模型能力。InfiFPO试图解决这一问题，通过在偏好优化阶段进行隐式模型融合，提升模型性能并避免词汇对齐难题。

Method

InfiFPO是一种在偏好对齐阶段进行隐式模型融合的偏好优化方法，其核心思想和实现步骤如下：

核心思想：在直接偏好优化（DPO）中，用一个融合的源模型（Fused Source Model）替换参考模型，利用序列级概率分布进行知识整合，避免词汇对齐问题，同时保留源模型的概率信息。
实现步骤：
1. FuseRLHF框架：基于RLHF的约束优化目标，鼓励枢轴模型（Pivot Model）在最大化偏好奖励的同时，通过序列级KL散度约束与各源模型保持接近。
2. 离线优化目标：将FuseRLHF转化为离线优化目标InfiFPO，避免在线采样和奖励模型训练的高成本，优化公式为： $\mathcal{L}_{\text{FPO}} = -\mathbb{E} \left[ \log \sigma \left( \beta \log \frac{\mathcal{M}^p(\bm{y}_w|\bm{x})}{\mathcal{M}_{\text{fu}}^s(\bm{y}_w|\bm{x})} - \beta \log \frac{\mathcal{M}^p(\bm{y}_l|\bm{x})}{\mathcal{M}_{\text{fu}}^s(\bm{y}_l|\bm{x})} \right) \right]$
3. 优化策略：
  - 长度归一化（Length Normalization）：通过序列长度对概率进行归一化，减少因分词长度差异导致的偏差。
  - 概率裁剪（Probability Clipping）：限制源模型概率范围，避免性能较差的源模型引入噪声梯度。
  - 最大边际融合（Max-Margin Fusion）：选择与枢轴模型概率差异最大的源模型进行融合，以获取最独特的信息。

批判性思考：虽然InfiFPO在理论上避免了词汇对齐问题，但序列级KL散度的计算可能对模型间的细粒度差异不够敏感，导致融合效果在某些任务上受限。此外，最大边际融合策略可能在源模型能力高度重叠或冲突时选择次优模型，论文未提供充分的应对机制。计算开销方面，尽管比其他融合方法更高效，但与标准DPO相比仍有额外负担，可能影响实际应用的可扩展性。

Experiment

InfiFPO的实验设计和结果如下：

实验设置：以Phi-4作为枢轴模型，选用5个主流开源LLM（参数规模9B至24B）作为源模型，包括通用模型（如Qwen2.5-14B-Instruct）和领域特定模型（如Qwen2.5-Math-7B-Instruct）。训练数据集包含15万条数学、编码和通用任务数据，评估覆盖11个广泛使用的基准，涉及通用推理、数学、编码、文本推理和指令跟随等任务。
实验流程：采用两阶段训练，先在半数数据上进行监督微调（SFT），再在剩余数据上进行偏好优化。使用奖励模型从多个模型生成的响应中选择偏好和非偏好响应对。
结果分析：
- 有效性：InfiFPO将Phi-4在11个基准上的平均性能从79.95提升至83.33，尤其在数学、编码和推理任务上表现突出，成功继承了源模型的领域专长。
- 与基线对比：相比其他模型融合方法（如InfiFusion），InfiFPO在性能上提升0.36，同时GPU计算时间仅为基线的34%；相比偏好优化方法（如WRPO），InfiFPO平均提升0.53，计算开销相当。
- 消融研究：长度归一化和概率裁剪对性能提升至关重要，缺少任一策略均导致性能下降；增加源模型数量（1至5个）逐步提升性能，但收益在4-5个模型后趋于平缓。

批判性思考：实验结果表明InfiFPO在性能和效率上优于基线，但实验设计存在局限性：一是未充分测试在低资源环境或极度异构模型下的表现；二是对领域特定模型的选择性融合策略（仅在特定任务上融合）可能引入人为偏差，未探讨自动化选择机制；三是性能提升虽显著，但部分任务（如通用推理）提升幅度较小，可能是序列级融合对细粒度任务的适应性不足。总体而言，实验设置较为全面，但需更多场景验证其鲁棒性。

Further Thoughts

InfiFPO的序列级概率融合方法为模型协作和知识整合提供了一个新颖视角，但其局限性也启发了一些未来研究方向。首先，序列级KL散度可能无法捕捉模型间的细粒度差异，是否可以结合token级和序列级的混合策略，进一步提升融合效果？其次，最大边际融合策略在源模型能力冲突时的表现值得深入探讨，或许可以引入动态权重调整机制，基于任务特性自适应选择源模型。此外，InfiFPO的计算开销虽较其他融合方法低，但与标准DPO相比仍有差距，是否能与参数高效微调方法（如LoRA）结合，进一步降低资源需求？从跨领域角度看，InfiFPO的框架是否适用于多模态模型融合，例如将视觉基础模型与语言模型的概率分布进行整合？这可能为构建更全面的AI系统提供新思路。总之，InfiFPO的研究为偏好优化与模型融合的结合奠定了基础，但其实际应用中的鲁棒性和可扩展性仍需更多探索。