Tag: Multi-Agent
All the articles with the tag "Multi-Agent".
-
DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
本文提出DialogueReason,一种基于对话的推理模式,通过PPO和规则奖励函数训练大型语言模型,以提升复杂复合问答任务中的推理多样性和连贯性,并在MATH、AIME和GPQA数据集上展现出比单论式推理更强的鲁棒性。
-
Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation
本文提出了一种质量导向的多代理框架,通过提示诱导、检索增强合成和奖励过滤从少量标注数据中提炼高质量监督信号,提升LLMs在低资源结构化推理任务中的性能。
-
Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning
本文提出MINDcraft框架和MineCollab基准,评估LLM在多代理具身协作中的性能,揭示了当前模型在通信和协调方面的局限性,并呼吁开发更先进的协作方法。
-
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning
本文提出EPO方法,通过强化学习优化一个专门的战略推理模型,辅助任意LLM代理在动态环境中实现长期目标对齐,提升战略推理能力。
-
MARFT: Multi-Agent Reinforcement Fine-Tuning
本文提出MARFT框架,通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调,提升代理协作能力并解决传统MARL的适用性问题。