HAPO 通过历史感知的策略优化训练语言模型,利用动态长度奖励机制显著减少推理输出长度(33-59%),同时仅以 2-5% 的准确率下降为代价,优于现有方法。
Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Test Time
Chengyu Huang, Zhengxin Zhang, Claire Cardie
Cornell University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在测试时通过扩展推理长度(test-time scaling)显著提升了推理能力和任务性能,但这也导致了输出冗长、推理成本增加的问题,尤其是在简单问题上出现过度思考(overthinking)。以往的解决方案,如通用预算限制(universal budget forcing)和查询级长度优化(query-level optimization),未能充分利用训练过程中同一问题的历史信息,限制了模型逐步生成更简洁解决方案的能力。HAPO 旨在解决这一问题,通过引入历史感知的策略优化,鼓励模型在保持正确性的同时生成比以往更短的正确回答。
Method
HAPO(History-Aware Policy Optimization)是一种基于强化学习(RL)的训练方法,核心在于利用历史信息动态调整奖励机制以优化语言模型的推理简洁性。具体步骤如下:
- 历史状态定义:为每个问题维护一个历史状态 ,记录之前遇到的最短正确回答长度,初始值为最大长度(Null)。
- 奖励函数设计:奖励分为两部分:准确性奖励(,正确回答为 1,错误为 0)和长度奖励()。长度奖励基于 动态计算,若当前正确回答长度小于 ,给予正奖励;若大于 ,给予负奖励;对于错误回答,若长度小于 ,奖励为 0(鼓励探索),否则为负奖励。最终奖励为 ,其中 是长度奖励的权重。
- 历史状态更新:每次遇到问题后,若生成新的更短正确回答,则更新 为当前最短长度。
- 训练过程:基于 GRPO 算法,在多个 epoch 中训练模型,逐步优化正确性和简洁性。 批判性思考:虽然 HAPO 的历史感知奖励机制在理论上创新,但其设计可能导致模型过分追求简洁性而牺牲准确性,尤其是在复杂问题上。此外,历史状态 可能因训练初期偶然生成的短回答而过早固定,导致后续探索受限。
Experiment
实验在三个开源模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B-Preview 和 Qwen-2.5-1.5B-Instruct)上进行,数据集包括 GSM8K、MATH500 和 AIME2024,涵盖从小学到竞赛级别的数学问题。训练数据为 DeepScaleR-Preview-Dataset 的 2000 个样本,验证集为 500 个样本,采用 GRPO 算法训练 5 个 epoch。评估指标为 Pass@1(准确率)和平均 token 数(#Tokens)。
- 结果:HAPO 在三个模型上实现了 33-59% 的长度减少,准确率仅下降 2-5%。例如,在 DeepSeek-R1-1.5B 上,平均长度减少 49%,准确率下降 2%。与基线方法(包括通用预算限制方法 L1-Exact/L1-Max 和查询级优化方法 Query-Opt)相比,HAPO 平均减少 19-23% 的 token 数,同时保持相似准确率。
- 跨领域测试:在非数学领域(GPQA 和 Live-CodeBench)上,HAPO 长度减少 27-34%,但准确率下降或提升不一,显示泛化能力有限。
- 实验设计分析:实验设置较为全面,涵盖不同难度问题和模型类型,但主要聚焦数学领域,未能充分验证方法在其他任务(如自然语言推理)上的效果。此外,训练数据规模较小,可能限制了模型对多样化问题的适应性。
- 批判性思考:虽然长度减少显著,但准确率下降在某些应用中可能不可接受。实验结果可能存在 cherry-picking 风险,因为超参数(如 )的选择对结果影响较大,而论文未充分探讨其敏感性。此外,跨领域测试结果表明方法泛化性不足,需更多实验验证。
Further Thoughts
HAPO 的历史感知奖励机制为优化语言模型推理效率提供了一个新颖视角,但其局限性也启发了一些进一步思考。首先,HAPO 的方法是否可以与其他效率优化技术(如蒸馏或剪枝)结合,以在不牺牲准确性的前提下进一步减少推理成本?其次,历史状态 的更新机制是否可以通过引入多样性激励(例如,不仅仅取最短长度,而是考虑多种正确解法的分布)来避免局部收敛问题?此外,HAPO 在跨领域任务上的表现不佳,可能与训练数据的单一性有关,是否可以通过多任务学习或领域自适应方法提升其泛化能力?最后,HAPO 的奖励设计与强化学习算法(如 GRPO)的交互存在复杂影响,未来可以探索更稳定的奖励归一化机制或替代算法(如 PPO),以确保超参数调整的预期效果。这也让我联想到近期一些关于上下文长度优化的研究,例如长上下文模型的注意力机制优化,或许可以为 HAPO 提供新的思路,特别是在处理复杂推理任务时平衡长度与准确性。