Skip to content
Go back 2505.18454 arXiv logo

Hybrid Latent Reasoning via Reinforcement Learning

Published:  at  11:43 AM
86.71 🤔

本文提出HRPO,一种基于强化学习的混合潜在推理框架,通过门控机制结合离散token和连续隐状态,显著提升了大型语言模型在知识和推理任务上的性能,同时减少了对链式思维数据的依赖。

Reinforcement Learning, Large Language Model, Reasoning, Representation Learning, Human-AI Interaction

Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang

University of Illinois Urbana-Champaign, Google, LMU

Generated by grok-3

Background Problem

大型语言模型(LLMs)中的潜在推理(Latent Reasoning)作为传统自回归推理(Autoregressive Reasoning)的替代方案,近年来受到关注。潜在推理通过利用前一步的连续隐状态进行内部计算,避免了离散链式思维(CoT)路径的采样,从而提供更丰富的信息特征。然而,现有潜在推理方法与LLMs的兼容性较差,因为连续范式与自回归生成的离散性质冲突;此外,这些方法通常依赖CoT轨迹进行训练,忽略了LLMs固有的推理能力,同时训练成本高昂。本文提出了一种基于强化学习(RL)的混合潜在推理方法(HRPO),旨在解决上述问题,通过结合离散token和连续隐状态,充分利用LLMs的内在推理模式,减少对CoT数据的依赖,并提升推理性能。

Method

HRPO(Hybrid Reasoning Policy Optimization)是一种基于强化学习(RL)的混合潜在推理优化框架,其核心思想和实现步骤如下:

批判性思考:尽管门控机制在理论上能够平衡离散和连续表示,但隐状态与嵌入空间的不匹配问题可能并未完全解决,特别是在复杂推理任务中,投影和插值可能引入噪声。此外,RL优化虽然避免了CoT数据依赖,但其训练动态可能不稳定,尤其是在不同规模模型上的表现差异需要更多分析。

Experiment

HRPO在知识密集型和推理密集型任务上进行了广泛评估,具体设置和结果如下:

Further Thoughts

HRPO的混合推理方法在减少CoT数据依赖方面展现了潜力,但其实际应用价值仍需进一步验证。例如,RL训练的计算成本和调参难度可能限制其在工业场景中的部署,特别是在资源受限的环境下。此外,HRPO的门控机制虽然创新,但隐状态对最终输出的具体影响机制尚不明确,如何调试错误推理路径是一个值得探索的方向。结合其他领域的研究,如多模态系统(Multimodal Systems)中的潜在表示学习,HRPO或许可以扩展到处理图像-文本推理任务,进一步验证其泛化能力。另外,HRPO与最近的RLHF(Reinforcement Learning from Human Feedback)方法结合,可能在对齐(Alignment)和安全性(Safety)方面提供新的视角,例如通过混合推理增强模型的可解释性,减少有害输出的生成风险。



Previous Post
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need?
Next Post
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning