本文通过将自然语言理解任务转化为强化学习问题,使用PPO算法微调中小规模LLMs,在GLUE和SuperGLUE基准上显著提升性能,超越监督微调和BERT-large,并展现出优于GPT-4o的零样本泛化能力。
Reinforcement Learning, Large Language Model, Fine-tuning, Classification, Regression, Instruction Tuning
Bokai Hu, Sai Ashish Somayajula, Xin Pan, Pengtao Xie
UC San Diego
Generated by grok-3
Background Problem
大型语言模型(LLMs)在自然语言处理中取得了显著进展,但参数小于14B的指令微调模型在自然语言理解(NLU)任务上的表现常常不如更小的编码器模型(如BERT-base),在GLUE和SuperGLUE等基准测试中表现不佳。本研究旨在解决这一问题,探索如何通过强化学习方法提升这些中小规模LLMs在NLU任务上的性能,特别是在无需大量标注数据的情况下,通过奖励驱动的学习实现任务适配。
Method
本文提出了两种微调方法来提升LLMs在NLU任务上的表现:
- 监督微调(SFT):将任务特定提示、输入文本和真实答案拼接为序列,使用下一个token预测目标进行优化,旨在让模型学习条件化的答案预测。
- 近端策略优化(PPO):将NLU任务转化为强化学习问题,其中输入token序列(截至t-1步)作为状态s_t,生成的token作为动作a_t。生成完整序列后,通过启发式方法提取最终答案,并与真实标签比较以计算奖励R。PPO通过最大化累积奖励来优化模型,使用剪切目标函数确保策略更新的稳定性。此外,为了降低计算成本,两种方法均仅更新LoRA层而非整个模型。 批评与思考:PPO方法的核心创新在于将NLU任务建模为强化学习问题,但其奖励函数设计过于简单,仅基于最终答案与标签的匹配,未考虑生成过程中的中间步骤或语义一致性,可能导致模型优化方向不够全面。此外,PPO的实现依赖于一个简单的批评者模型(Critic Model)来估计状态价值,但论文未详细讨论如何确保批评者模型的准确性,这可能影响训练稳定性。
Experiment
实验基于GLUE和SuperGLUE基准测试,使用LLAMA2-7B-chat-hf作为主要模型,同时在Qwen2.5-7B-Instruct和MPT-7B-chat上验证一致性。实验设置包括单任务微调(ST)和多任务微调(MT),对比了PPO、SFT、零样本提示和少样本提示,以及BERT-base和BERT-large等基线模型。结果显示:
- 效果:PPO在GLUE上的平均性能提升显著,单任务PPO达到84.8,优于SFT的78.5和BERT-large的82.1;在零样本泛化测试中,PPO微调的LLAMA2模型在多个数据集上平均性能比GPT-4o高出4%以上,特别是在Mental Health(+7.3%)和SIGA-nli(+10.9%)上表现突出。
- 设置合理性:实验涵盖了单任务和多任务设置,并测试了不同模型和任务类型,设计较为全面;然而,奖励函数过于简单,可能无法充分反映NLU任务的复杂性,且零样本泛化测试的数据集选择可能存在偏见,未完全证明泛化能力的普适性。
- 计算成本:PPO的计算时间约为SFT的1.32倍,成本增加有限,但论文未讨论大规模应用中的可行性。 批评与思考:虽然PPO在性能上表现出色,但实验结果的显著提升可能部分归因于任务特定提示设计和答案提取的正则表达式匹配,这种方法可能在实际应用中面临鲁棒性问题。此外,论文未提供足够的数据分布分析来支持零样本泛化结果的可靠性,需进一步验证。
Further Thoughts
本文提出的PPO微调方法为LLMs在NLU任务上的适配提供了一个新颖视角,特别是在数据标注资源有限的情况下,通过奖励驱动学习实现任务对齐具有潜力。然而,奖励函数的设计是关键瓶颈,未来的研究可以探索更复杂的奖励机制,例如结合语义相似度或中间推理步骤的评估,以捕捉NLU任务的细微差别。此外,PPO方法是否能扩展到更大规模模型或更广泛的任务类型(如开放式问答或多模态任务)仍需验证。与其他领域的研究相结合,例如RLHF(强化学习从人类反馈)在对齐大模型中的应用,可以进一步探讨如何设计更具普适性的奖励模型,以减少对任务特定设计的依赖。最后,考虑到PPO的计算成本略高于SFT,未来的工作应评估其在资源受限环境下的实际可行性,以及是否可以通过更高效的算法或并行计算进一步优化。