本文揭示了大型语言模型微调中的’Temporal Forgetting’现象,并提出’Temporal Sampling’方法,通过从多个训练检查点采样答案显著提升推理性能(Pass@k提升4-19个百分点),并通过LoRA适配降低存储成本。
Large Language Model, Reinforcement Learning, Supervised Learning, Reasoning, Efficiency
Yuetai Li, Zhangchen Xu, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Xiang Yue, Radha Poovendran
University of Washington, Carnegie Mellon University, Western Washington University
Generated by grok-3
Background Problem
大型语言模型(LLMs)通过微调(如监督微调SFT和强化学习RL)以提升推理能力,但作者发现了一个反直觉现象:模型在微调过程中会遗忘之前正确解答的问题,称之为’Temporal Forgetting’。这一现象表明,传统的仅基于最终检查点的评估方法可能低估模型的真实推理潜力,作者通过量化指标(Temporal Forgetting Score)揭示6.4%到56.1%的最终错误答案曾在训练中某个检查点被正确解答。因此,关键问题是如何利用训练过程中的动态变化,恢复这些被遗忘的正确解答,并重新思考模型评估和部署的范式。
Method
作者提出了’Temporal Sampling’,一种简单的推理时解码策略,核心思想是利用训练过程中的多个检查点作为答案多样性的来源,而不仅仅依赖最终检查点。具体步骤如下:
- 检查点选择:通常选择最近的个检查点,按时间从最新到最早排序。
- 采样分配:将采样预算(即生成答案的次数)通过round-robin方式分配到个检查点上,确保每个检查点都被均匀采样。
- 性能度量:引入新指标,表示从个检查点采样次答案后至少获得一个正确答案的概率,并提供无偏估计方法。
- LoRA适配扩展:为降低存储成本,将方法扩展到LoRA微调模型,仅保存低秩适配器权重,而非完整模型参数。
批判性思考:虽然方法简单直观,但缺乏对检查点选择和采样分配策略的深入优化,例如是否可以通过加权采样或基于性能的检查点选择进一步提升效果?此外,方法未解决’Temporal Forgetting’的根本原因,仅通过采样缓解问题,显得治标不治本。
Experiment
实验在多个推理基准(如AIME2024、AMC2023、AIME2025)上进行,使用Qwen2.5系列模型(1.5B和7B)通过GRPO和SFT微调,训练数据为DeepScaleR-4k数据集,保存8个检查点。采样设置采用温度0.6、top-p 0.95的多样性采样,生成64个答案。实验对比了三种评估方式:
- Pass@k|t:与仅在最终检查点采样的基线相比,Temporal Sampling(t=8)在AIME2024、AMC和AIME2025上分别提升19、13和4个百分点。
- Maj@k|t(多数投票):在相同计算预算下,t=8时性能提升显著,例如在AIME2024上提升8个百分点。
- Best-of-N (BoN):结合奖励模型,t=8时在三个基准上分别提升7、8和1个百分点。
此外,作者将方法与Mixture of Models(MoM)对比,Temporal Sampling在Maj@k上表现更优。LoRA适配实验显示,即使存储成本降低,性能仍优于基线。
批判性思考:实验设置较为全面,涵盖多个基准和评估指标,结果显示方法有效性。然而,实验未探讨不同采样分配策略(如非均匀分配)的影响,也未分析为何某些检查点的答案更易被遗忘,缺乏对现象背后机制的深入挖掘。此外,基准测试的样本量是否足够代表广泛任务,实验结果的泛化性值得进一步验证。
Further Thoughts
Temporal Sampling提供了一种利用训练动态的新思路,但其实际部署仍面临挑战,例如存储和计算成本的权衡。未来是否可以通过更智能的检查点选择算法(如基于答案正确率或多样性)进一步优化性能?此外,Temporal Forgetting现象可能与训练过程中的奖励函数设计或优化目标有关,是否可以通过改进强化学习算法(如更稳定的奖励机制)从根本上减少遗忘?
这一研究还让我联想到多智能体系统中’集体记忆’的概念:是否可以将多个检查点视为不同的’智能体’,通过协作推理进一步提升性能?这可能与多智能体推理(Multi-Agent Reasoning)领域的研究相结合,探索训练过程中的动态协作机制。此外,Temporal Sampling是否适用于其他领域(如视觉基础模型),也值得进一步探索。