Skip to content
Go back 2502.02508 arXiv logo

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

Published:  at  11:26 AM
85.95 🤔

本文提出Satori模型,通过Chain-of-Action-Thought (COAT) 推理框架和两阶段训练(小规模格式调整与大规模强化学习),显著提升了单一7B大型语言模型在数学推理及非领域任务中的自回归搜索和推理能力。

Reinforcement Learning, Large Language Model, Reasoning, Self-Supervised Learning, In-Context Learning

Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

MIT, Singapore University of Technology and Design, Harvard, MIT-IBM Watson AI Lab, IBM Research, UMass Amherst

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务中表现出色,尤其是在数学、编程和逻辑推理等领域。然而,现有方法多依赖于测试时的大量采样和外部验证模型(如两玩家系统),增加了部署成本,且未能将搜索能力内部化到单一模型中。此外,传统的Chain-of-Thought (CoT) 推理方法缺乏自反思和自探索机制,限制了模型在复杂任务上的表现。本文提出一个新问题:是否能通过后训练增强单一LLM的自回归搜索能力,从而在不依赖外部指导的情况下提升推理能力?其目标是解决测试时计算成本高和推理能力内部化不足的问题。

Method

本文提出了一种名为Chain-of-Action-Thought (COAT) 的推理框架,并设计了两阶段训练范式来增强LLM的自回归搜索能力。具体方法如下:

批判性思考:COAT框架引入meta-action tokens的创新值得肯定,但其实际效果依赖于模型对这些token的理解和执行能力,论文未充分探讨模型是否可能滥用或忽略这些token。此外,RAE策略虽然旨在解决长距离奖励问题,但从中间步骤重启可能引入新的偏差,导致模型过于关注局部修正而忽略整体推理逻辑。奖励设计的复杂性(多重奖励组合)也可能导致优化目标不明确,需更多理论分析支持其有效性。

Experiment

实验基于Qwen-2.5-Math-7B模型,训练数据来源于公开数学指令数据集(如OpenMathInstruct-2和NuminaMath-CoT),共约550K样本。评估主要在数学基准数据集(GSM8K, MATH500, OlympiadBench, AMC2023, AIME2024)上进行,采用零样本pass@1准确率作为主要指标,同时在非数学领域(如逻辑推理、代码推理、常识推理等)测试泛化能力。

Further Thoughts

Satori的COAT框架和RL训练策略为LLM推理能力的内部化提供了一个有趣的方向,但其方法可能在更复杂的多模态或长上下文任务中面临挑战,例如在需要跨领域知识整合的场景中,meta-action tokens可能不足以引导模型进行有效探索。未来研究可以考虑结合多模态数据或更复杂的奖励机制来增强模型的适应性。此外,论文中提到的自纠错能力与近期一些研究(如Zhang et al., 2024b)关于LLM自纠错困难的结论形成对比,值得进一步探讨COAT是否真正解决了这一问题,还是仅在特定任务(如数学推理)上有效。另一个值得思考的点是,Satori的训练框架是否可以应用于其他基础模型(如Vision Foundation Model),以提升其在视觉推理任务中的自回归搜索能力,这可能开辟新的跨领域应用前景。



Previous Post
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
Next Post
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs