Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

本文揭示强化学习（RL）微调大型语言模型（LLMs）时仅更新5%-30%参数子网络的现象，通过实验验证仅微调子网络即可恢复全微调性能，并指出训练数据分布接近策略是稀疏性主因，为高效微调策略提供新思路。

Reinforcement Learning, Large Language Model, Fine-tuning, Efficiency, Representation Learning

Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur, Hao Peng

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

大型语言模型（LLMs）在预训练后通常通过强化学习（RL）进行微调，以提升下游任务性能、与人类价值观对齐及遵守安全协议。然而，尽管RL微调通常采用全参数更新（full finetuning），其是否真正需要更新所有参数仍是一个未解之谜。本文揭示了一个惊人现象：RL仅更新了模型中5%-30%的参数子网络，其余参数几乎不变，称之为参数更新稀疏性（parameter update sparsity）。本文旨在探究这一现象的普遍性、成因及其对高效训练策略的启示，解决RL微调是否需要全参数更新的关键问题，并为更高效的微调方法提供新思路。

Method

本文的核心发现是RL微调在LLMs中引发的参数更新稀疏性，具体方法和分析步骤如下：

核心思想：观察并验证RL微调仅更新一小部分参数（5%-30%）形成的子网络，而无需显式稀疏性正则化或架构约束。
分析方法：通过对比预训练模型和RL微调后模型的参数差异，计算更新稀疏性（update sparsity），定义为未更新参数占比（ $sparsity(\theta_0, \theta_1) = 1 - \frac{\|\theta_1 - \theta_0\|_0}{n}$ ）。
子网络微调验证：提出猜想（Conjecture 1），即仅微调识别出的子网络（冻结其他参数）即可恢复全微调模型的性能和参数值。通过构造二进制掩码（binary mask）限制梯度更新，仅更新子网络参数进行验证。
成因探究：通过控制变量实验，分析稀疏性的影响因素，包括训练数据分布（in-distribution vs. out-of-distribution）、KL正则化、梯度裁剪（gradient clipping）及训练步数等。

批判性思考：尽管方法设计较为系统，但论文未提供稀疏性现象的理论解释，仅依赖经验观察和初步推测。此外，子网络识别依赖于训练后分析，缺乏早期识别方法，这可能限制其实用性。

Experiment

实验设计覆盖了7种广泛使用的RL算法（如PPO、DPO、GRPO）和10个不同家族的LLMs，基于Hugging Face公开模型检查点进行分析，具体如下：

数据集与设置：分析了多个模型（如Llama-3.1、DeepSeek、Mistral）的SFT和RL阶段更新稀疏性，任务包括数学推理（MATH500）、逻辑推理（AGIEval LSAT）等。实验未完全控制训练配置，部分依赖公开检查点。
结果：RL微调的更新稀疏性在68.5%-96.0%之间，远高于SFT（6%-15%稀疏性）。子网络微调（θsub）在DPO和PRIME算法上与全微调（θfull）性能相当甚至更优（如PRIME在MATH500难度5上提升5.2%），参数值相似度高达94%-100%（视容差而定）。子网络一致性实验显示，不同种子、数据和算法下的子网络重叠率显著高于随机基线（最高达60.6%）。
成因分析：训练数据接近策略分布（in-distribution data）是稀疏性主因，KL正则化和梯度裁剪影响有限；训练步数增加会略微降低稀疏性，但趋于稳定。
评价与批判：实验结果支持了稀疏性现象和子网络微调的有效性，但公开检查点的使用可能引入未控制变量，影响结果可靠性。此外，子网络重叠率非100%，实际应用中可能面临挑战。实验未涉及多模态或扩散模型，泛化性有待验证。

Further Thoughts

本文的发现为RL微调的高效性提供了新视角，但也引发了一些深层次思考。首先，子网络稀疏性与彩票假设（LTH）的关系值得进一步探索：是否可以通过结合LTH的剪枝方法和本文的子网络识别，设计出更高效的训练流程？其次，训练数据分布对稀疏性的影响提示我们，是否可以通过数据选择或生成策略（如自生成in-distribution数据）进一步增强稀疏性，从而降低计算成本？此外，本文未涉及的领域（如多模态模型）可能具有不同稀疏性模式，值得跨领域验证。最后，与参数高效微调方法（如LoRA）的结合是一个潜在方向：是否可以在子网络基础上应用LoRA，进一步减少更新参数量，同时保持性能？这可能为未来RL微调的实际应用（如在资源受限环境下的部署）带来突破。