Skip to content
Go back 2504.16129 arXiv logo

MARFT: Multi-Agent Reinforcement Fine-Tuning

Published:  at  04:28 PM
56.39 🤔

本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。

Multi-Agent, Reinforcement Learning, Fine-Tuning, Reasoning, Human-AI Interaction, Adaptive Systems

Junwei Liao, Muning Wen, Jun Wang, Weinan Zhang

Shanghai Jiao Tong University, Shanghai Innovation Institute, Xi’an Jiaotong University, OPPO Research Institute

Generated by grok-3-mini-latest

Background Problem

本研究源于大型语言模型(LLM)在复杂代理任务中的强大表现,但现有研究对基于LLM的多代理系统(LaMAS)使用强化学习(RL)进行微调的探索有限。直接应用传统多代理强化学习(MARL)方法到LaMAS中面临诸多挑战,包括异步代理交互、代理配置文件设计、异构架构等,这些问题源于LaMAS的独特特性。研究背景强调了从传统RL到强化微调(RFT)的演变,以及LaMAS在处理复杂任务中的优势,但也指出传统MARL方法在LaMAS中的适用性不足,需要一个针对LaMAS的通用框架来提升代理系统的智能性和协作能力。

Method

Experiment

Further Thoughts

MARFT的框架强调代理间的异步协作和动态组织,这可能与联邦学习相结合,提升隐私保护在分布式AI系统中的应用;此外,在区块链技术中,MARFT可优化去中心化自治组织(DAO)的决策过程,通过强化学习改进代理间的共识机制;与深度强化学习领域的MAT(Multi-Agent Transformer)类似,MARFT可扩展到更复杂的环境,如机器人群协作,潜在地解决样本效率问题,通过集成离线数据或元学习方法来加速收敛。



Previous Post
Pushing the boundary on Natural Language Inference
Next Post
Monte Carlo Planning with Large Language Model for Text-Based Game Agents