Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法，使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率，超越GPT-4o和DeepSeek-V3，同时显著提升推理效率。

Large Language Model, Multi-Agent, Human-AI Interaction, Fine-tuning, Reasoning, Efficiency

Minttu Alakuijala, Ya Gao, Georgy Ananov, Samuel Kaski, Pekka Marttinen, Alexander Ilin, Harri Valpola

Aalto University, University of Manchester, System 2 AI

Generated by grok-3

Background Problem

随着人工智能代理能力的不断提升，基于大型语言模型（LLM）的AI代理在处理多任务时的学习能力成为关键挑战。当前LLM代理通常依赖提示（prompt）来整合目标任务的知识，但这种方法无法让代理真正内部化信息，反而导致提示不断扩展，类似于患有顺行性遗忘症的人依赖笔记系统。随着提示长度增加，代理性能因信息过载而下降，尤其是在基于Transformer的模型中，计算成本随提示长度呈二次方增长。本文提出了一种新方法，通过迭代训练和人类反馈，将知识和技能内部化到模型权重中，解决提示依赖问题，提升多任务处理能力。

Method

本文提出了一种迭代训练方法，通过将人类提供的提示内部化到AI代理的模型权重中，减少对外部提示的依赖。其核心思想和主要步骤如下：

首轮训练（Round 1）：初始阶段，代理基于任务描述和工具说明等初始提示（h1）生成训练轨迹，形成状态-动作-提示三元组数据集D1。使用上下文蒸馏（context distillation）技术，通过最小化教师模型（有提示）和学生模型（无提示）之间的KL散度，将提示知识内部化到学生模型权重中，具体通过添加LoRA适配器实现参数更新。
后续轮次（Round 2及以后）：观察代理行为，识别错误模式，使用自动过滤器（脚本或LLM评审）定位错误状态，并设计针对性纠正提示（hi(s)）。在错误状态下采样纠正动作，构建新数据集Di，再次通过上下文蒸馏更新模型权重，逐步改进代理行为。
关键技术：方法借鉴模仿学习中的DAgger算法，通过人类提示替代专家演示，避免高质量演示数据的获取难题。同时，采用数据平衡策略和提示dropout机制（概率p=0.9），防止模型通用能力退化。

批判性思考：尽管方法创新，但其依赖人类反馈的设计提示可能在任务数量和复杂度增加时面临可扩展性问题。此外，上下文蒸馏是否适用于所有模型架构（如非Transformer模型）未在论文中充分探讨，可能限制方法的普适性。

Experiment

实验在两个基准测试集上进行：ToolQA（涉及信息检索和工具使用的多任务数据集）和OfficeBench（复杂办公流程任务）。实验设置和结果如下：

数据集与设置：ToolQA包含6个任务组，1076个任务，OfficeBench包含286个任务，涉及多应用场景。使用Llama-3.1-70B-Instruct作为基础模型，训练数据分为训练、验证和测试集，测试结果基于3次试验的平均成功率。对比基线包括单任务代理（带任务特定提示）和多任务代理（带组合提示），以及GPT-4o和DeepSeek-V3等先进模型。
结果分析：首轮训练后，MNM代理在ToolQA和OfficeBench上的成功率分别为91.8%和82.8%，已超越组合提示的Llama代理。第二轮和第三轮通过纠正提示进一步提升性能，最终成功率达到97.9%（ToolQA）和90.3%（OfficeBench），超过GPT-4o（92.8%和89.9%）和DeepSeek-V3（87.5%和86.9%）。此外，训练后的代理推理效率提升3-4倍，输入token数仅为其他模型的7-10%。
额外实验：在未见任务上的泛化测试显示MNM代理接近GPT-4o表现；在标准基准（如HumanEval和GSM8K）上未见性能退化。
评价与批判：实验设置较为全面，涵盖多任务场景和泛化能力测试，结果表明方法有效。然而，实验未涉及跨领域任务训练，限制了方法通用性的验证。此外，人类反馈由AI研究者提供，可能高估了方法在普通用户场景下的实用性，实验设计未充分考虑非专业用户反馈的质量影响。

Further Thoughts

本文的方法通过将人类反馈内部化到模型权重中，为减少提示依赖提供了一种有前景的思路，但其依赖人工设计的提示可能限制了在更大规模或更复杂任务中的应用。未来可以探索结合自动化提示生成技术（如利用另一个LLM生成初步提示）或自监督学习方法，减少对人类干预的依赖。此外，跨领域任务训练的缺失是一个重要局限，是否可以将ToolQA训练的代理直接应用于OfficeBench，或通过某种迁移学习机制实现知识共享，值得进一步研究。另一个有趣的方向是探索方法在非语言任务（如机器人控制）中的适用性，结合多模态数据可能进一步扩展其应用范围。总之，本文提供了一个减少提示依赖的创新框架，但其实际部署中的可扩展性和泛化能力仍需更多实验验证。