RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning

本文提出RL-of-Thoughts (RLoT) 方法，通过强化学习训练轻量化导航模型，在推理时动态构建任务特定逻辑结构，显著提升大型语言模型在多领域推理任务中的表现，并展现出跨模型和任务的强迁移能力。

Reinforcement Learning, Large Language Model, Reasoning, Inference Time, Adaptive Systems

Qianyue Hao, Sibo Li, Jian Yuan, Yong Li

清华大学电子工程系, BNRist

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理任务中取得了显著成功，但其基于token的自回归生成特性在复杂推理任务（如数学问题求解、跨领域知识推理）中存在局限，难以处理需要多步逻辑和长期依赖的问题。现有的推理时技术（如Chain-of-Thought, Tree-of-Thoughts）通过预定义的逻辑结构提升推理能力，但这些结构通常是任务无关的，缺乏对不同任务特性的适应性，且无法动态调整以应对推理过程中的状态变化。本文提出了一种新的方法，旨在解决推理时技术缺乏适应性的关键问题，通过引入强化学习（RL）在推理时动态构建任务特定的逻辑结构，从而提升LLM在多样化推理任务中的表现。

Method

本文提出了RL-of-Thoughts (RLoT) 方法，利用强化学习（RL）在推理时增强大型语言模型（LLM）的推理能力。其核心思想和实现步骤如下：

核心思想：将长序列推理过程建模为马尔可夫决策过程（MDP），通过训练一个轻量级的RL导航模型（navigator model）来动态选择和组合逻辑结构，以适应不同任务的特性，指导LLM完成复杂推理。
MDP设计：
- 状态（State）：通过LLM自评估机制，从正确性、复杂度和完整性三个主要方面（细分为七个具体指标）提取当前推理状态，生成低维状态表示，以捕捉推理过程中的问题解决状态。
- 动作（Action）：设计了五个受人类认知启发的基本逻辑块作为动作空间，包括单步推理（Reason one step）、分解（Decompose）、辩论（Debate）、精炼（Refine）和终止（Terminate），通过组合这些块构建任务特定的逻辑结构。
- 奖励（Reward）：使用过程奖励模型（Process Reward Model, PRM）评估中间推理结果的质量，作为单步奖励信号。
- 状态转移（State Transition）：根据当前状态执行动作，提示LLM继续推理，并通过自评估更新状态，同时设置约束（如推理步数限制、终止条件）确保逻辑结构的合理性。
导航模型训练：采用Double-Dueling-DQN算法训练导航模型，仅更新导航模型参数（不到3K参数），保持LLM和PRM参数不变，以降低计算成本。训练数据从目标任务中提取LLM难以直接解决的难题，确保模型针对挑战性任务优化。
推理过程：训练完成后，导航模型根据当前推理状态选择动作，指导LLM逐步构建逻辑结构，直至完成任务。

批判性思考：虽然RLoT提供了一种创新的动态推理框架，但其方法存在潜在局限性。首先，五个逻辑块的设计虽然受人类认知启发，但可能不足以覆盖所有复杂推理任务所需的逻辑模式，特别是在跨领域或极端复杂问题中。其次，状态自评估依赖于LLM自身的能力，若LLM在某些任务上的自评估不准确，可能导致状态表示失真，进而影响导航模型的决策。最后，方法对PRM的依赖可能引入额外的不确定性，若PRM的奖励信号不够精确或泛化性差，可能限制RLoT的整体效果。论文未充分讨论这些潜在问题及其对方法鲁棒性的影响。

Experiment

本文在多个推理基准测试上对RLoT方法进行了广泛评估，具体设置和结果如下：

数据集与任务：涵盖数学（AIME24, AMC23, MATH, GSM8K）、STEM（GPQA, MMLU-STEM）和常识推理（StrategyQA）等多个领域，任务难度和类型多样，旨在全面评估推理能力。
测试模型：选择了多个代表性LLM，包括Qwen2.5-7B/14B-Instruct, Llama3.1-8B-Instruct, GPT-4o-mini和DeepSeek-R1-Distill-Qwen-7B，主要聚焦于sub-10B规模模型，以验证RLoT对中小模型的提升效果。
基线方法：与多种推理时技术对比，包括Direct QA, Zero-shot CoT, Few-shot CoT, CoT-SC和Tree-of-Thoughts (ToT)，其中CoT-SC在多数任务中表现最佳。
实验设置：导航模型采用三层MLP结构（仅2566参数），在Qwen2.5-14B-Instruct和MATH数据集上训练，并测试其跨模型和跨任务的迁移能力。奖励信号由Math-Shepherd PRM提供。
结果分析：
- 整体性能：RLoT在几乎所有任务和模型组合中均优于基线方法，平均性能提升显著，尤其在GPQA任务上，结合Llama3.1-8B-Instruct时提升达13.4%。
- 参数效率：RLoT使sub-10B模型性能接近甚至超过10倍参数规模的大模型，展现了极高的效率。
- 迁移能力：导航模型在不同LLM和任务间表现出较强的迁移性，例如在MATH上训练的模型可有效提升其他模型在GPQA和StrategyQA上的表现，尽管数学/STEM任务间的迁移效果优于与常识任务间的迁移。
- 推理模式：RLoT生成的逻辑结构具有任务特异性，例如在MATH和GPQA中常见Reason-Refine模式，而StrategyQA中多见Reason-Debate模式，展现了方法的适应性。

批判性思考：实验设计较为全面，覆盖了多领域任务和多模型测试，迁移性实验也为方法的普适性提供了支持。然而，实验存在以下问题：首先，导航模型主要在MATH任务上训练，跨任务迁移性能虽好，但在某些任务（如StrategyQA）上的提升幅度较小，且与基线差距不大，可能表明方法对某些任务类型的适应性有限。其次，实验未充分探讨不同任务难度或模型规模对RLoT效果的影响，例如在极难任务或超大规模模型上的表现可能存在瓶颈。再次，实验结果的统计显著性分析不足，部分任务上的小幅提升可能受随机性影响，缺乏置信区间或多次运行的验证。最后，论文未讨论计算开销的具体影响，尽管声称与基线相当，但多步推理和自评估可能在实际应用中增加延迟，需进一步量化。这些问题使得实验结果的稳健性和方法的实际应用价值仍需更多验证。

Further Thoughts

RLoT方法通过推理时动态调整逻辑结构，为提升LLM推理能力提供了一个新颖视角，但其设计和实验结果也引发了一些深层次思考。首先，五个逻辑块的设计虽然简洁，但在面对更复杂的跨领域任务（如结合视觉和文本的多模态推理）时可能显得不足，未来是否可以引入更多样化的逻辑块或结合多模态提示工程来扩展其适用范围？其次，RLoT的迁移能力虽然令人印象深刻，但其在数学和STEM任务间的迁移效果优于与常识任务间的迁移，这可能反映了任务领域间的内在差异，是否可以通过分层或领域特定的导航模型进一步优化迁移性能？此外，RLoT与现有RL技术（如RLHF）的结合潜力值得探索，例如是否可以在推理时引入人类反馈来动态调整逻辑结构，从而实现更个性化的推理指导？最后，RLoT的轻量化设计虽然高效，但在高负载推理场景下可能面临表达能力不足的问题，是否可以通过与大型基础模型的协同工作（如将导航模型作为大型模型的辅助模块）来突破这一限制？这些思考不仅与本文方法相关，也与更广泛的AI推理和适应性系统研究领域相呼应，值得进一步研究和验证。