Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

本文提出Satori模型，通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练（小规模格式调整与大规模强化学习），显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。

Reinforcement Learning, Large Language Model, Reasoning, Self-Supervised Learning, In-Context Learning

Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

MIT, Singapore University of Technology and Design, Harvard, MIT-IBM Watson AI Lab, IBM Research, UMass Amherst

Generated by grok-3

Background Problem

大型语言模型（LLMs）在推理任务中表现出色，尤其是在数学、编程和逻辑推理等领域。然而，现有方法多依赖于测试时的大量采样和外部验证模型（如两玩家系统），增加了部署成本，且未能将搜索能力内部化到单一模型中。此外，传统的Chain-of-Thought (CoT) 推理方法缺乏自反思和自探索机制，限制了模型在复杂任务上的表现。本文提出一个新问题：是否能通过后训练增强单一LLM的自回归搜索能力，从而在不依赖外部指导的情况下提升推理能力？其目标是解决测试时计算成本高和推理能力内部化不足的问题。

Method

本文提出了一种名为Chain-of-Action-Thought (COAT) 的推理框架，并设计了两阶段训练范式来增强LLM的自回归搜索能力。具体方法如下：

核心思想：COAT推理框架：在传统CoT推理基础上，引入了meta-action tokens（如<|continue|>、<|reflect|>、<|explore|>），引导模型在推理过程中进行继续推理、自反思或探索替代方案。这些特殊token旨在让模型自主决定何时验证正确性、识别错误或尝试新策略，而无需外部干预。
两阶段训练范式：
- 小规模格式调整（Format Tuning, FT）：通过模仿学习（Imitation Learning），在少量（10K）专家演示轨迹上对预训练LLM进行微调，使其熟悉COAT推理格式。数据合成采用多代理框架，包括生成器（Generator）、评论家（Critic）和奖励模型（Reward Model），以构建高质量的演示轨迹。
- 大规模自改进（Self-Improvement via RL）：采用强化学习（RL），特别是Proximal Policy Optimization (PPO) 算法，通过自生成轨迹进一步提升模型推理能力。提出“Restart and Explore (RAE)”策略，从中间步骤重新开始推理以纠正错误，并通过奖励设计（包括规则奖励、自反思奖励和偏好奖励）解决长距离稀疏奖励问题。此外，引入迭代自改进机制，通过多次RL和监督微调（SFT）循环，避免陷入局部最优。

批判性思考：COAT框架引入meta-action tokens的创新值得肯定，但其实际效果依赖于模型对这些token的理解和执行能力，论文未充分探讨模型是否可能滥用或忽略这些token。此外，RAE策略虽然旨在解决长距离奖励问题，但从中间步骤重启可能引入新的偏差，导致模型过于关注局部修正而忽略整体推理逻辑。奖励设计的复杂性（多重奖励组合）也可能导致优化目标不明确，需更多理论分析支持其有效性。

Experiment

实验基于Qwen-2.5-Math-7B模型，训练数据来源于公开数学指令数据集（如OpenMathInstruct-2和NuminaMath-CoT），共约550K样本。评估主要在数学基准数据集（GSM8K, MATH500, OlympiadBench, AMC2023, AIME2024）上进行，采用零样本pass@1准确率作为主要指标，同时在非数学领域（如逻辑推理、代码推理、常识推理等）测试泛化能力。

实验设置：对比了Satori-Qwen-7B与多个基线模型，包括同规模的Qwen-2.5-Math-7B-Instruct及更大规模模型（如o1-preview）。实验还包括消融研究，分析COAT与传统CoT的差异、RL与大规模FT的效果对比，以及自纠错能力和测试时计算分配的表现。
结果：Satori-Qwen-7B在数学任务上显著优于同规模基线模型（如Qwen-2.5-Math-7B-Instruct），平均准确率从59.9%提升至62.6%，尤其在困难任务（如AIME2024）上提升明显（16.7%到20.0%）。在非数学领域，Satori也表现出较强的泛化能力，平均准确率达60.4%，接近通用指令模型Qwen-2.5-7B-Instruct（62.5%）。消融研究表明COAT优于CoT，RL训练对自纠错和测试时计算分配有显著贡献。
分析与批判：实验设置较为全面，涵盖了数学和非数学任务，基准选择合理。然而，结果虽然显示改进，但部分提升幅度有限（如GSM8K上略低于基线），且未探讨提升是否完全归因于COAT和RL，可能受基模型Qwen-2.5-Math-7B本身数学能力的影响。此外，测试时计算分配随问题难度增加而增长的结论虽有趣，但未提供足够证据证明这是COAT或RL的直接结果，而非模型规模或训练数据的副作用。实验缺乏对meta-action tokens具体使用频率和效果的细粒度分析，可能掩盖了其实际作用的局限性。

Further Thoughts

Satori的COAT框架和RL训练策略为LLM推理能力的内部化提供了一个有趣的方向，但其方法可能在更复杂的多模态或长上下文任务中面临挑战，例如在需要跨领域知识整合的场景中，meta-action tokens可能不足以引导模型进行有效探索。未来研究可以考虑结合多模态数据或更复杂的奖励机制来增强模型的适应性。此外，论文中提到的自纠错能力与近期一些研究（如Zhang et al., 2024b）关于LLM自纠错困难的结论形成对比，值得进一步探讨COAT是否真正解决了这一问题，还是仅在特定任务（如数学推理）上有效。另一个值得思考的点是，Satori的训练框架是否可以应用于其他基础模型（如Vision Foundation Model），以提升其在视觉推理任务中的自回归搜索能力，这可能开辟新的跨领域应用前景。