本文提出自适应直接长度惩罚(A-DLP)方法,通过动态调整强化学习中的长度惩罚系数,在减少大型语言模型推理长度超过 50% 的同时保持准确性,为构建高效推理模型提供了新方向。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency
Jinyan Su, Claire Cardie
Cornell University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在数学推理等任务中展现出强大的推理能力,尤其通过强化学习(RL)进一步提升。然而,RL训练的模型往往生成冗长的推理轨迹,即使面对简单问题也‘过度思考’,导致推理成本和延迟显著增加。现有方法通过在奖励函数中加入固定长度惩罚来控制输出长度,但固定惩罚参数难以调优,无法适应模型性能的变化,可能导致输出过短而牺牲准确性,或长度压缩不足。本文提出了一种自适应奖励调整方法,旨在解决这一问题,通过动态调整长度惩罚来平衡准确性和输出效率。
Method
本文提出了一种自适应直接长度惩罚(Adaptive Direct Length Penalty, A-DLP)方法,核心思想是通过动态调整奖励函数中的长度惩罚系数来平衡推理准确性和输出长度。其主要步骤如下:
- 基本奖励函数:初始奖励基于输出正确性,定义为 ,其中 是参考答案, 是指示函数。
- 静态长度惩罚(S-DLP):引入固定长度惩罚,奖励函数为 ,其中 是固定超参数,控制准确性和简洁性的权衡。
- 自适应长度惩罚(A-DLP):动态更新惩罚系数 ,根据训练步 的模型准确性 与参考准确性 的差距调整,更新公式为 ,其中 是学习率。最终奖励函数为 。
- 关键机制:当准确性高于参考值时,增加惩罚系数以加速长度压缩;当准确性低于参考值时,降低惩罚以保护正确性,避免过度压缩。
批判性思考:A-DLP 的自适应机制理论上优于固定惩罚,但其依赖于参考准确性 的预估,可能因训练数据分布变化而失准。此外,固定学习率 可能无法适应训练过程中的复杂动态,导致惩罚系数更新不及时或不稳定,影响训练效果。
Experiment
实验基于 DeepScaleR-1.5B-Preview 模型,在数学推理数据集 DeepScaleR-Preview-Dataset(包含 AIME、AMC 等子集,共 40K 问答对)上进行训练,并使用 AIME2024 作为验证集,在 AIME2025、MATH 等五个数据集上评估。实验设置包括限制上下文长度为 8192 token,采用 Group Relative Policy Optimization (GRPO) 进行 RL 训练,比较了 A-DLP 与基线模型(无长度惩罚)、L1-Exact、L1-Max 和静态长度惩罚(S-DLP)的性能。
结果:A-DLP 在几乎所有数据集上实现了超过 50% 的 token 长度减少,同时准确性仅下降不到 0.04,优于 S-DLP 的准确性-长度权衡曲线。相比 S-DLP 在训练后期因过度惩罚导致模型崩溃(准确性和长度急剧下降),A-DLP 表现出稳定的收敛性,准确性和长度逐渐稳定。此外,A-DLP 对正确和错误回答的长度减少比例相当,均超过 55%。
参数敏感性分析:学习率 和参考准确性 对结果影响显著。过小的学习率导致惩罚系数无法及时调整,造成过度压缩和模型崩溃;过大的学习率则因准确性估计噪声导致惩罚系数波动,但仍能避免崩溃。参考准确性设置过高或过低分别导致长度压缩不足或过度压缩。
批判性思考:实验设计较为合理,涵盖了多个数学推理数据集,并通过与多种基线对比验证了 A-DLP 的有效性。然而,实验规模较小,仅基于 1.5B 参数模型,未验证在大规模模型上的效果。此外,数据集局限于数学推理领域,缺乏对其他任务(如编程或常识推理)的泛化性测试。参数调优依赖人工经验,缺乏自动化优化方法,可能限制实际应用。
Further Thoughts
A-DLP 的自适应奖励机制为优化语言模型推理效率提供了一个有前景的方向,但其局限性也启发了一些深入思考。首先,参考准确性作为固定常数可能无法捕捉训练过程中的数据分布变化,未来可以探索基于滑动窗口或在线估计的动态参考准确性,以提高适应性。其次,固定学习率更新惩罚系数的局限性提示我们,可以借鉴元学习或自适应优化算法(如 Adam)来动态调整学习率,进一步提升训练稳定性。此外,A-DLP 在正确和错误回答上比例相似的长度压缩策略可能并非最优,未来可以结合错误检测机制,针对错误回答更激进地压缩,以更好地保护正确回答的准确性。最后,本文的实验局限于数学推理任务和小型模型,考虑到大型模型(如百亿参数级别)的推理行为可能更为复杂,未来验证其在大规模模型和多任务场景下的效果将非常重要。