Tag: Planning
All the articles with the tag "Planning".
-
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
本文提出StarPO框架和RAGEN系统,通过多轮轨迹级别强化学习训练LLM智能体,揭示了训练不稳定性(如Echo Trap)和推理能力不足的挑战,并通过StarPO-S改进稳定性和泛化性,但推理能力仍需细粒度奖励设计支持。
-
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
本文提出 R1-Code-Interpreter 框架,通过监督微调和强化学习训练大型语言模型动态生成和执行代码,在 144 个推理和规划任务上显著提升准确率,R1-CI-14B 达到 64.1%,接近 GPT-4o+Code Interpreter 的性能。
-
Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents
本文提出Pre-Act方法,通过多步骤规划和详细推理提升LLM代理性能,并通过微调小型模型(如Llama 3.1 70B)在Almita数据集上实现比GPT-4高69.5%的行动准确率和28%的目标完成率。
-
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games
本文提出Divide-Fuse-Conquer框架,通过分组训练、参数融合和持续优化提升大型语言模型在多场景游戏中的泛化能力,实验在TextArena的18个游戏中显示Qwen2.5-32B-Align性能接近Claude3.5,但复杂场景表现仍有限。
-
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
本文提出PNLC方法,通过离线RL训练轻量级目标条件值函数辅助大型语言模型在多轮交互任务中进行高效长程规划,在性能和计算效率上显著优于现有RL微调和推理时搜索方法。