Skip to content
Go back 2505.11225 arXiv logo

HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization

Published:  at  11:10 AM
85.33 🤔

HAPO 通过历史感知的策略优化训练语言模型,利用动态长度奖励机制显著减少推理输出长度(33-59%),同时仅以 2-5% 的准确率下降为代价,优于现有方法。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Test Time

Chengyu Huang, Zhengxin Zhang, Claire Cardie

Cornell University

Generated by grok-3

Background Problem

大型语言模型(LLMs)在测试时通过扩展推理长度(test-time scaling)显著提升了推理能力和任务性能,但这也导致了输出冗长、推理成本增加的问题,尤其是在简单问题上出现过度思考(overthinking)。以往的解决方案,如通用预算限制(universal budget forcing)和查询级长度优化(query-level optimization),未能充分利用训练过程中同一问题的历史信息,限制了模型逐步生成更简洁解决方案的能力。HAPO 旨在解决这一问题,通过引入历史感知的策略优化,鼓励模型在保持正确性的同时生成比以往更短的正确回答。

Method

HAPO(History-Aware Policy Optimization)是一种基于强化学习(RL)的训练方法,核心在于利用历史信息动态调整奖励机制以优化语言模型的推理简洁性。具体步骤如下:

Experiment

实验在三个开源模型(DeepSeek-R1-Distill-Qwen-1.5B、DeepScaleR-1.5B-Preview 和 Qwen-2.5-1.5B-Instruct)上进行,数据集包括 GSM8K、MATH500 和 AIME2024,涵盖从小学到竞赛级别的数学问题。训练数据为 DeepScaleR-Preview-Dataset 的 2000 个样本,验证集为 500 个样本,采用 GRPO 算法训练 5 个 epoch。评估指标为 Pass@1(准确率)和平均 token 数(#Tokens)。

Further Thoughts

HAPO 的历史感知奖励机制为优化语言模型推理效率提供了一个新颖视角,但其局限性也启发了一些进一步思考。首先,HAPO 的方法是否可以与其他效率优化技术(如蒸馏或剪枝)结合,以在不牺牲准确性的前提下进一步减少推理成本?其次,历史状态 hih^i 的更新机制是否可以通过引入多样性激励(例如,不仅仅取最短长度,而是考虑多种正确解法的分布)来避免局部收敛问题?此外,HAPO 在跨领域任务上的表现不佳,可能与训练数据的单一性有关,是否可以通过多任务学习或领域自适应方法提升其泛化能力?最后,HAPO 的奖励设计与强化学习算法(如 GRPO)的交互存在复杂影响,未来可以探索更稳定的奖励归一化机制或替代算法(如 PPO),以确保超参数调整的预期效果。这也让我联想到近期一些关于上下文长度优化的研究,例如长上下文模型的注意力机制优化,或许可以为 HAPO 提供新的思路,特别是在处理复杂推理任务时平衡长度与准确性。



Previous Post
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
Next Post
Universal Cross-Tokenizer Distillation via Approximate Likelihood Matching