Posts
All the articles I've posted.
-
Reverse Preference Optimization for Complex Instruction Following
本文提出逆向偏好优化(RPO)方法,通过动态反转指令中未满足的约束消除偏好对噪声,在多轮复杂指令跟随任务上显著优于DPO基线,并在70B模型上超越GPT-4o。
-
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
本文提出PURE框架,通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力,实验显示其在数学推理任务上与可验证奖励方法性能相当,且结合少量地面真实信号可进一步提升准确率至53.3%。
-
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,通过序列级概率融合和优化策略,将多个源模型知识整合到枢轴模型中,显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。
-
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods
本文通过理论和实验分析,提出模型集成方法通过平衡‘bias-variance’权衡有效缓解监督微调中的过适应问题,提升下游任务性能并减少预训练知识遗忘。
-
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization
本文提出Quantized Zeroth-order Optimization (QZO),通过扰动量化尺度参数并结合方向导数裁剪,在量化神经网络上实现零阶优化微调,将内存使用减少18倍以上,并在LLMs和Stable Diffusion上展示出显著的内存效率和一定的性能提升。