本文提出HRPO,一种基于强化学习的混合潜在推理框架,通过门控机制结合离散token和连续隐状态,显著提升了大型语言模型在知识和推理任务上的性能,同时减少了对链式思维数据的依赖。
Reinforcement Learning, Large Language Model, Reasoning, Representation Learning, Human-AI Interaction
Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang
University of Illinois Urbana-Champaign, Google, LMU
Generated by grok-3
Background Problem
大型语言模型(LLMs)中的潜在推理(Latent Reasoning)作为传统自回归推理(Autoregressive Reasoning)的替代方案,近年来受到关注。潜在推理通过利用前一步的连续隐状态进行内部计算,避免了离散链式思维(CoT)路径的采样,从而提供更丰富的信息特征。然而,现有潜在推理方法与LLMs的兼容性较差,因为连续范式与自回归生成的离散性质冲突;此外,这些方法通常依赖CoT轨迹进行训练,忽略了LLMs固有的推理能力,同时训练成本高昂。本文提出了一种基于强化学习(RL)的混合潜在推理方法(HRPO),旨在解决上述问题,通过结合离散token和连续隐状态,充分利用LLMs的内在推理模式,减少对CoT数据的依赖,并提升推理性能。
Method
HRPO(Hybrid Reasoning Policy Optimization)是一种基于强化学习(RL)的混合潜在推理优化框架,其核心思想和实现步骤如下:
- 核心思想:通过RL策略优化,将离散token采样与连续隐状态表示相结合,利用LLMs的固有推理能力,避免对链式思维(CoT)轨迹的依赖,同时保持生成能力。
- 门控机制(Gating Mechanism):设计了一种可学习的门控机制,初始时输入主要来自采样token嵌入,随着训练进展,逐步融入前一步的隐状态表示,提供更丰富的推理特征。具体实现上,隐状态通过加权插值投影到嵌入空间(通过公式 ),并通过门控公式(如 )混合离散和连续表示。
- 策略优化:HRPO采用在线RL方法,通过混合输出(离散token和隐状态)生成轨迹,计算基于结果的奖励(仅对最终答案的离散token计算),并利用组内标准化优势估计进行策略梯度更新,同时引入KL散度正则化以保持训练稳定性。
批判性思考:尽管门控机制在理论上能够平衡离散和连续表示,但隐状态与嵌入空间的不匹配问题可能并未完全解决,特别是在复杂推理任务中,投影和插值可能引入噪声。此外,RL优化虽然避免了CoT数据依赖,但其训练动态可能不稳定,尤其是在不同规模模型上的表现差异需要更多分析。
Experiment
HRPO在知识密集型和推理密集型任务上进行了广泛评估,具体设置和结果如下:
- 数据集与设置:在知识基准测试中,使用了五个开放域和多跳问答数据集(NQ, TriviaQA, HotpotQA, 2WikiMQA, Bamboogle),结合检索增强生成(RAG)上下文;在STEM基准测试中,评估了五个推理密集型数据集(GSM8k, MATH, MATH500, MMLU-ST, ARC-C)。实验基于Qwen2.5模型(1.5B和3B参数规模),与SFT、RAG、PPO、GRPO等基线以及更大模型(≥7B)进行对比。
- 结果:在知识任务中,HRPO在3B模型上平均精确匹配(EM)得分为0.380,超越7B RAG基线4.5%;在1.5B模型上得分为0.337,优于PPO 3.0%。在STEM任务中,HRPO在3B模型上平均准确率为0.700,与最佳7B模型相当;在1.5B模型上为0.617,部分数据集(如MATH)甚至优于7B模型。HRPO在大多数数据集上均优于其他RL方法(如PPO和GRPO)。
- 分析与合理性:实验设置覆盖了多种任务类型,数据集选择合理,但缺乏对长上下文或极端推理任务的测试,可能无法全面反映HRPO在复杂场景下的表现。此外,HRPO在较小模型上的性能提升更为显著,表明其对资源受限场景的适用性,但作者未深入探讨奖励稀疏性或模型规模对训练稳定性的影响。
- 批判性思考:尽管结果显示HRPO性能优越,但部分提升幅度较小(如3B模型上与GRPO的差距仅1.3%),且实验未充分对比潜在推理方法在无RAG支持下的表现,可能高估了HRPO的独立贡献。此外,跨语言模式和较短完成长度等新兴特性虽有趣,但缺乏统计显著性分析,可能是偶然现象而非HRPO固有优势。
Further Thoughts
HRPO的混合推理方法在减少CoT数据依赖方面展现了潜力,但其实际应用价值仍需进一步验证。例如,RL训练的计算成本和调参难度可能限制其在工业场景中的部署,特别是在资源受限的环境下。此外,HRPO的门控机制虽然创新,但隐状态对最终输出的具体影响机制尚不明确,如何调试错误推理路径是一个值得探索的方向。结合其他领域的研究,如多模态系统(Multimodal Systems)中的潜在表示学习,HRPO或许可以扩展到处理图像-文本推理任务,进一步验证其泛化能力。另外,HRPO与最近的RLHF(Reinforcement Learning from Human Feedback)方法结合,可能在对齐(Alignment)和安全性(Safety)方面提供新的视角,例如通过混合推理增强模型的可解释性,减少有害输出的生成风险。