Skip to content
Go back 2502.01562 arXiv logo

Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization

Published:  at  11:25 AM
89.45 🤔

本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法,使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率,超越GPT-4o和DeepSeek-V3,同时显著提升推理效率。

Large Language Model, Multi-Agent, Human-AI Interaction, Fine-tuning, Reasoning, Efficiency

Minttu Alakuijala, Ya Gao, Georgy Ananov, Samuel Kaski, Pekka Marttinen, Alexander Ilin, Harri Valpola

Aalto University, University of Manchester, System 2 AI

Generated by grok-3

Background Problem

随着人工智能代理能力的不断提升,基于大型语言模型(LLM)的AI代理在处理多任务时的学习能力成为关键挑战。当前LLM代理通常依赖提示(prompt)来整合目标任务的知识,但这种方法无法让代理真正内部化信息,反而导致提示不断扩展,类似于患有顺行性遗忘症的人依赖笔记系统。随着提示长度增加,代理性能因信息过载而下降,尤其是在基于Transformer的模型中,计算成本随提示长度呈二次方增长。本文提出了一种新方法,通过迭代训练和人类反馈,将知识和技能内部化到模型权重中,解决提示依赖问题,提升多任务处理能力。

Method

本文提出了一种迭代训练方法,通过将人类提供的提示内部化到AI代理的模型权重中,减少对外部提示的依赖。其核心思想和主要步骤如下:

批判性思考:尽管方法创新,但其依赖人类反馈的设计提示可能在任务数量和复杂度增加时面临可扩展性问题。此外,上下文蒸馏是否适用于所有模型架构(如非Transformer模型)未在论文中充分探讨,可能限制方法的普适性。

Experiment

实验在两个基准测试集上进行:ToolQA(涉及信息检索和工具使用的多任务数据集)和OfficeBench(复杂办公流程任务)。实验设置和结果如下:

Further Thoughts

本文的方法通过将人类反馈内部化到模型权重中,为减少提示依赖提供了一种有前景的思路,但其依赖人工设计的提示可能限制了在更大规模或更复杂任务中的应用。未来可以探索结合自动化提示生成技术(如利用另一个LLM生成初步提示)或自监督学习方法,减少对人类干预的依赖。此外,跨领域任务训练的缺失是一个重要局限,是否可以将ToolQA训练的代理直接应用于OfficeBench,或通过某种迁移学习机制实现知识共享,值得进一步研究。另一个有趣的方向是探索方法在非语言任务(如机器人控制)中的适用性,结合多模态数据可能进一步扩展其应用范围。总之,本文提供了一个减少提示依赖的创新框架,但其实际部署中的可扩展性和泛化能力仍需更多实验验证。



Previous Post
Enabling Flexible Multi-LLM Integration for Scalable Knowledge Aggregation
Next Post
QKV Projections Require a Fraction of Their Memory