MARFT: Multi-Agent Reinforcement Fine-Tuning

本文提出MARFT框架，通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调，提升代理协作能力并解决传统MARL的适用性问题。

Multi-Agent, Reinforcement Learning, Fine-Tuning, Reasoning, Human-AI Interaction, Adaptive Systems

Junwei Liao, Muning Wen, Jun Wang, Weinan Zhang

Shanghai Jiao Tong University, Shanghai Innovation Institute, Xi’an Jiaotong University, OPPO Research Institute

Generated by grok-3-mini-latest

Background Problem

本研究源于大型语言模型（LLM）在复杂代理任务中的强大表现，但现有研究对基于LLM的多代理系统（LaMAS）使用强化学习（RL）进行微调的探索有限。直接应用传统多代理强化学习（MARL）方法到LaMAS中面临诸多挑战，包括异步代理交互、代理配置文件设计、异构架构等，这些问题源于LaMAS的独特特性。研究背景强调了从传统RL到强化微调（RFT）的演变，以及LaMAS在处理复杂任务中的优势，但也指出传统MARL方法在LaMAS中的适用性不足，需要一个针对LaMAS的通用框架来提升代理系统的智能性和协作能力。

Method

核心思想： MARFT 提出一个针对LLM-based多代理系统的强化微调框架，基于Flexible Partially Observable Markov Decision Process（Flex-POMDP）模型，引入依赖函数D来处理异步和动态代理交互。核心是通过序列决策建模和信任区域优化（如PPO）来微调代理策略，确保单代理和系统整体性能的单调改进。
工作原理： 在行动级别，MARFT使用序列建模将多代理决策转化为顺序决策过程，每个代理基于前置代理的行动和滚动观察生成行动。信任区域方法（如PPO）通过最小化KL散度确保策略更新稳定。行动归一化处理行动长度差异，代理逐个更新减少脱策略问题。token级别微调进一步细化信用分配，将每个token视为行动，计算token级Q函数和V函数，并使用Bellman备份优化。
主要步骤： 1. 定义Flex-POMDP，包括状态、观察、行动和依赖函数。2. rollout轨迹收集数据。3. 计算优势函数（如GAE）和目标值。4. 使用PPO优化策略和价值函数，支持LoRA微调以减少计算开销。算法框架在代码中实现，支持行动级和token级微调。

Experiment

数据集和设置： 使用MATH数据集进行初步实验，环境初始化为随机采样的问题-答案对。代理基于配置文件（如reasoner和actor角色）协作解决问题，奖励为二元信号（正确/错误）。实验比较单代理和双代理框架，包括无调优基线、行动级PPO/token级PPO、行动级MARFT/token级MARFT。
为什么这样设计： 实验旨在验证MARFT在提升LaMAS性能方面的有效性，关注群智涌现和微调粒度对准确率的影响。设置合理，因为它控制变量（如代理数量、微调方法），并使用GAE和PPO确保稳定训练。
结果分析： MARFT显著提升准确率（如双代理MARFT达约50%，比基线高5%），但早期训练可能震荡（token级）。结果符合预期，显示MARFT在保持LLM能力的同时改善协作。实验全面，涵盖不同粒度和代理配置，并计划扩展到更多数据集如GSM8k和WebShop以验证泛化性。

Further Thoughts

MARFT的框架强调代理间的异步协作和动态组织，这可能与联邦学习相结合，提升隐私保护在分布式AI系统中的应用；此外，在区块链技术中，MARFT可优化去中心化自治组织（DAO）的决策过程，通过强化学习改进代理间的共识机制；与深度强化学习领域的MAT（Multi-Agent Transformer）类似，MARFT可扩展到更复杂的环境，如机器人群协作，潜在地解决样本效率问题，通过集成离线数据或元学习方法来加速收敛。