Skip to content
Go back 2503.09501 arXiv logo

ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning

Published:  at  11:53 AM
85.15 🤔

ReMA通过多智能体强化学习分离元思考和推理过程,提升了大型语言模型在数学推理和LLM-as-a-Judge任务上的性能,尤其在分布外泛化能力上表现出色,但对超参数敏感且多轮设置存在稳定性挑战。

Large Language Model, Reinforcement Learning, Multi-Agent, Reasoning, Meta-Learning

Ziyu Wan, Yunxiang Li, Xiaoyu Wen, Yan Song, Hanjing Wang, Linyi Yang, Mark Schmidt, Jun Wang, Weinan Zhang, Shuyue Hu, Ying Wen

Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory, University of British Columbia, University College London

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务中表现出色,但其推理过程缺乏元思考(meta-thinking)能力,即对自身推理过程的监控、评估和控制能力,这限制了模型在分布外(OOD)任务上的泛化能力和适应性。现有单智能体方法(如基于监督微调或单智能体强化学习)在探索元思考模式时效率低下,难以应对复杂推理结构,容易陷入局部最优或不稳定性能表现。论文提出通过多智能体强化学习(MARL)框架,分离元思考和推理过程,以提升探索效率和泛化能力,解决现有方法在元思考获取上的不足。

Method

ReMA(Reinforced Meta-thinking Agents)是一个基于多智能体强化学习(MARL)的框架,旨在通过分离元思考和推理过程来提升大型语言模型(LLMs)的推理能力。其核心思想和实现步骤如下:

Experiment

ReMA在数学推理和LLM-as-a-Judge任务上进行了广泛实验,具体设置和结果如下:

Further Thoughts

ReMA的框架为大型语言模型的推理能力提升提供了一个有趣的多智能体视角,但其设计和实验结果也引发了一些深层次思考。首先,元思考和推理分离的理念是否可以进一步与其他领域(如认知科学中的元认知模型)结合,以设计更符合人类思维模式的奖励函数或交互机制?例如,是否可以引入动态角色调整机制,让智能体在训练中根据任务难度自适应切换角色,而非固定高低层次分工?其次,论文中提到的’Echo Trap’问题与长距离依赖挑战在多轮交互中普遍存在,这与强化学习在长时序任务中的信用分配问题高度相关,是否可以通过引入记忆增强机制(如外部记忆模块或状态压缩技术)来缓解?此外,ReMA的成功部分依赖于大规模模型(如8B参数)的复杂策略学习能力,这是否意味着方法对小规模模型的适用性有限?未来研究可以探索轻量化多智能体框架或知识蒸馏技术,以在资源受限场景中实现类似效果。这些思考不仅针对ReMA本身,也为更广泛的LLM推理增强研究提供了潜在方向。



Previous Post
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models
Next Post
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models