Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
本文提出R2R,一种令牌级别的神经路由方法,通过选择性使用LLM修正SLM推理路径中的分歧令牌,在平均激活参数5.6B下超越R1-14B模型性能,并比R1-32B实现2.8倍墙钟加速。
-
Reverse Preference Optimization for Complex Instruction Following
本文提出逆向偏好优化(RPO)方法,通过动态反转指令中未满足的约束消除偏好对噪声,在多轮复杂指令跟随任务上显著优于DPO基线,并在70B模型上超越GPT-4o。
-
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
本文提出PURE框架,通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力,实验显示其在数学推理任务上与可验证奖励方法性能相当,且结合少量地面真实信号可进一步提升准确率至53.3%。
-
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,通过序列级概率融合和优化策略,将多个源模型知识整合到枢轴模型中,显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。
-
Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods
本文通过理论和实验分析,提出模型集成方法通过平衡‘bias-variance’权衡有效缓解监督微调中的过适应问题,提升下游任务性能并减少预训练知识遗忘。