Skip to content
Go back 2505.11711 arXiv logo

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Published:  at  11:23 AM
85.92 🤔

本文揭示强化学习(RL)微调大型语言模型(LLMs)时仅更新5%-30%参数子网络的现象,通过实验验证仅微调子网络即可恢复全微调性能,并指出训练数据分布接近策略是稀疏性主因,为高效微调策略提供新思路。

Reinforcement Learning, Large Language Model, Fine-tuning, Efficiency, Representation Learning

Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

大型语言模型(LLMs)在预训练后通常通过强化学习(RL)进行微调,以提升下游任务性能、与人类价值观对齐及遵守安全协议。然而,尽管RL微调通常采用全参数更新(full finetuning),其是否真正需要更新所有参数仍是一个未解之谜。本文揭示了一个惊人现象:RL仅更新了模型中5%-30%的参数子网络,其余参数几乎不变,称之为参数更新稀疏性(parameter update sparsity)。本文旨在探究这一现象的普遍性、成因及其对高效训练策略的启示,解决RL微调是否需要全参数更新的关键问题,并为更高效的微调方法提供新思路。

Method

本文的核心发现是RL微调在LLMs中引发的参数更新稀疏性,具体方法和分析步骤如下:

批判性思考:尽管方法设计较为系统,但论文未提供稀疏性现象的理论解释,仅依赖经验观察和初步推测。此外,子网络识别依赖于训练后分析,缺乏早期识别方法,这可能限制其实用性。

Experiment

实验设计覆盖了7种广泛使用的RL算法(如PPO、DPO、GRPO)和10个不同家族的LLMs,基于Hugging Face公开模型检查点进行分析,具体如下:

Further Thoughts

本文的发现为RL微调的高效性提供了新视角,但也引发了一些深层次思考。首先,子网络稀疏性与彩票假设(LTH)的关系值得进一步探索:是否可以通过结合LTH的剪枝方法和本文的子网络识别,设计出更高效的训练流程?其次,训练数据分布对稀疏性的影响提示我们,是否可以通过数据选择或生成策略(如自生成in-distribution数据)进一步增强稀疏性,从而降低计算成本?此外,本文未涉及的领域(如多模态模型)可能具有不同稀疏性模式,值得跨领域验证。最后,与参数高效微调方法(如LoRA)的结合是一个潜在方向:是否可以在子网络基础上应用LoRA,进一步减少更新参数量,同时保持性能?这可能为未来RL微调的实际应用(如在资源受限环境下的部署)带来突破。



Previous Post
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
Next Post
Round and Round We Go! What makes Rotary Positional Encodings useful?