Skip to content
Go back 2505.16984 arXiv logo

UFT: Unifying Supervised and Reinforcement Fine-Tuning

Published:  at  11:47 AM
89.30 🤔

本文提出统一微调(UFT)框架,通过整合监督微调和强化微调,利用提示引导探索和混合目标函数,在不同规模模型和推理任务上均表现出色,并理论上证明了样本复杂度的指数级改进。

Supervised Learning, Reinforcement Learning, Large Language Model, Fine-tuning, Reasoning

Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

Massachusetts Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)的后训练(post-training)对于提升推理能力至关重要,但现有主要方法——监督微调(SFT)和强化微调(RFT)各有局限。SFT适用于小模型,效率高,但易过拟合,限制了大模型的推理能力;RFT在大模型上泛化能力更强,但高度依赖基础模型的初始能力,且面临稀疏奖励导致的探索困难。本文提出统一微调(UFT),旨在通过整合SFT和RFT,解决记忆(memorization)和泛化(generalization)之间的权衡问题,同时缓解RFT在长推理任务中的指数级样本复杂度瓶颈。

Method

UFT的核心思想是将SFT的监督信号与RFT的奖励信号整合到一个训练框架中,通过以下两个关键机制实现:

批判性思考:虽然提示引导探索的想法直观,但在实际任务中,提示的质量和代表性可能显著影响效果,若数据集中的解决方案不够多样,可能会引入偏差。此外,目标函数中多个项的平衡(如KL惩罚系数β)依赖超参数调整,论文未充分讨论其敏感性,可能导致实际应用中的不稳定性。

Experiment

实验在多个数据集(Countdown、MATH(3,4,5)、Knights and Knaves逻辑谜题)上对Qwen2.5(0.5B、1.5B、3B)和Llama-3.2(1B、3B)模型进行了测试,比较了UFT与SFT、RFT、SFT-RFT(先SFT后RFT)以及R3(逆向课程强化学习)的性能。

Further Thoughts

UFT的提示引导探索和混合目标函数设计为后训练方法提供了一个有趣的思路,但其实际应用可能面临挑战。例如,提示长度调度策略依赖于余弦退火,若任务复杂度分布不均或解决方案长度差异较大,可能需要更自适应的调度方法。此外,UFT在目标函数中引入的对数似然项虽然提升了知识获取效率,但与强化学习目标的平衡问题值得进一步研究,特别是在奖励稀疏性极高的任务中。联想到最近的一些工作,如在RLHF(Reinforcement Learning from Human Feedback)中引入多目标优化,UFT是否可以进一步结合人类反馈或自动化过程监督(如Math-Shepherd)来增强其在复杂推理任务中的表现?另外,UFT的理论分析虽然展示了样本复杂度的改进,但其假设(如奖励的次优性差距∆)在现实任务中可能过于理想化,未来研究可以探索更贴近实际的理论边界。



Previous Post
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
Next Post
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More