Tag: Sequence Probability
All the articles with the tag "Sequence Probability".
-
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,通过序列级概率融合和优化策略,将多个源模型知识整合到枢轴模型中,显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。