Skip to content
Go back 2410.11020 arXiv logo

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

Published:  at  11:24 AM
87.16 🤔

本文通过将自然语言理解任务转化为强化学习问题,使用PPO算法微调中小规模LLMs,在GLUE和SuperGLUE基准上显著提升性能,超越监督微调和BERT-large,并展现出优于GPT-4o的零样本泛化能力。

Reinforcement Learning, Large Language Model, Fine-tuning, Classification, Regression, Instruction Tuning

Bokai Hu, Sai Ashish Somayajula, Xin Pan, Pengtao Xie

UC San Diego

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理中取得了显著进展,但参数小于14B的指令微调模型在自然语言理解(NLU)任务上的表现常常不如更小的编码器模型(如BERT-base),在GLUE和SuperGLUE等基准测试中表现不佳。本研究旨在解决这一问题,探索如何通过强化学习方法提升这些中小规模LLMs在NLU任务上的性能,特别是在无需大量标注数据的情况下,通过奖励驱动的学习实现任务适配。

Method

本文提出了两种微调方法来提升LLMs在NLU任务上的表现:

Experiment

实验基于GLUE和SuperGLUE基准测试,使用LLAMA2-7B-chat-hf作为主要模型,同时在Qwen2.5-7B-Instruct和MPT-7B-chat上验证一致性。实验设置包括单任务微调(ST)和多任务微调(MT),对比了PPO、SFT、零样本提示和少样本提示,以及BERT-base和BERT-large等基线模型。结果显示:

Further Thoughts

本文提出的PPO微调方法为LLMs在NLU任务上的适配提供了一个新颖视角,特别是在数据标注资源有限的情况下,通过奖励驱动学习实现任务对齐具有潜力。然而,奖励函数的设计是关键瓶颈,未来的研究可以探索更复杂的奖励机制,例如结合语义相似度或中间推理步骤的评估,以捕捉NLU任务的细微差别。此外,PPO方法是否能扩展到更大规模模型或更广泛的任务类型(如开放式问答或多模态任务)仍需验证。与其他领域的研究相结合,例如RLHF(强化学习从人类反馈)在对齐大模型中的应用,可以进一步探讨如何设计更具普适性的奖励模型,以减少对任务特定设计的依赖。最后,考虑到PPO的计算成本略高于SFT,未来的工作应评估其在资源受限环境下的实际可行性,以及是否可以通过更高效的算法或并行计算进一步优化。



Previous Post
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
Next Post
Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration