Tag: Multi-Agent

All the articles with the tag "Multi-Agent".

DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs

Published: 18 May, 2025 at 11:17 AM

83.58 🤔

本文提出DialogueReason，一种基于对话的推理模式，通过PPO和规则奖励函数训练大型语言模型，以提升复杂复合问答任务中的推理多样性和连贯性，并在MATH、AIME和GPQA数据集上展现出比单论式推理更强的鲁棒性。
Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation

Published: 4 May, 2025 at 04:28 PM

77.44 🤔

本文提出了一种质量导向的多代理框架，通过提示诱导、检索增强合成和奖励过滤从少量标注数据中提炼高质量监督信号，提升LLMs在低资源结构化推理任务中的性能。
Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning

Published: 4 May, 2025 at 04:29 PM

76.05 🤔

本文提出MINDcraft框架和MineCollab基准，评估LLM在多代理具身协作中的性能，揭示了当前模型在通信和协调方面的局限性，并呼吁开发更先进的协作方法。
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

Published: 4 May, 2025 at 04:27 PM

60.29 🤔

本文提出EPO方法，通过强化学习优化一个专门的战略推理模型，辅助任意LLM代理在动态环境中实现长期目标对齐，提升战略推理能力。
MARFT: Multi-Agent Reinforcement Fine-Tuning

Published: 4 May, 2025 at 04:28 PM

56.39 🤔

本文提出MARFT框架，通过序列决策和信任区域优化在LLM-based多代理系统中实现高效强化微调，提升代理协作能力并解决传统MARL的适用性问题。

Tag: Multi-Agent

DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs

Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation

Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

MARFT: Multi-Agent Reinforcement Fine-Tuning