Skip to content
Go back 2505.17612 arXiv logo

Distilling LLM Agent into Small Models with Retrieval and Code Tools

Published:  at  11:25 AM
93.11 🤔

本文提出Agent Distillation框架,通过将LLM代理的交互行为蒸馏到sLMs中,并结合first-thought prefix和self-consistent action generation方法,使小型模型在事实和数学推理任务上取得显著性能提升,接近甚至超越更大规模的CoT蒸馏模型。

Large Language Model, Reinforcement Learning, Reasoning, Multimodal Systems, Human-AI Interaction

Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang

KAIST, KRAFTON, DeepAuto.ai

Generated by grok-3

Background Problem

大型语言模型(LLMs)在复杂推理任务上表现出色,但其高昂的计算成本限制了实际部署。为此,研究者尝试将LLM的推理能力蒸馏到小型语言模型(sLMs)中。然而,传统的链式思维(CoT)蒸馏方法在需要稀有事实知识或精确计算的场景中效果不佳,sLMs容易产生幻觉。本文提出了一种新的框架——Agent Distillation,旨在将LLM代理的完整任务解决行为(包括推理和工具使用)转移到sLMs中,解决传统蒸馏方法在泛化和鲁棒性上的不足。

Method

本文提出了Agent Distillation框架,其核心思想是将LLM代理的交互式行为(reason-act-observe轨迹)蒸馏到sLMs中,使其具备使用检索和代码工具解决问题的能力。具体方法包括以下两点:

关键步骤:首先,利用教师模型(Qwen2.5-32B-Instruct)生成包含推理、动作和观察的代理轨迹;然后,通过参数高效微调(如LoRA)训练学生模型模仿这些轨迹(不包括观察部分);最后,在推理阶段结合sag方法优化动作生成。

批判性思考:虽然ftp方法在提升轨迹质量上有一定效果,但其可能导致学生模型在事实推理任务中减少检索工具的使用,增加幻觉风险。此外,sag方法依赖于多次采样和一致性投票,计算开销较高,可能影响实际部署效率。

Experiment

实验在事实推理(HotpotQA等4个数据集)和数学推理(MATH等4个数据集)两大类任务上进行,涵盖领域内和跨域泛化测试。数据集包括训练集(HotpotQA 1000例,MATH 2000例)和测试集(每个任务限制为500例或更少)。教师模型为Qwen2.5-32B-Instruct,学生模型为0.5B至7B的Qwen2.5-Instruct系列。实验设置对比了CoT蒸馏(包括RAG增强)和本文的Agent Distillation(结合ftp和sag)。

结果:Agent Distillation在所有模型规模上均表现出色,尤其在跨域任务中,小型模型(0.5B至3B)性能接近甚至超过更大规模(1.5B至7B)的CoT蒸馏模型。例如,0.5B代理模型性能接近1.5B CoT模型,3B代理模型超越7B CoT模型。ftp和sag进一步提升了性能,尤其在复杂数学任务(如AIME)上效果显著。然而,在MATH500任务上,Agent Distillation表现不如CoT蒸馏,可能由于Qwen2.5系列模型对大学数学的指令微调更适合CoT风格。

实验设计评价:实验设置较为全面,涵盖多种任务和模型规模,跨域测试也验证了泛化能力。但数据集规模较小(测试集限制为500例),可能影响结果的统计显著性。此外,sag方法的高计算开销未被充分讨论,可能低估了实际应用中的效率问题。

Further Thoughts

本文提出的Agent Distillation框架为小型语言模型的实用化提供了一条有前景的路径,但其局限性也启发了一些深入思考。首先,first-thought prefix方法在减少检索工具使用时可能导致幻觉问题,这提示我们是否可以通过更智能的提示设计或轨迹生成策略(如结合强化学习或奖励模型)来平衡内部知识和外部工具的使用。其次,sag方法虽然提升了鲁棒性,但其计算开销较高,是否可以通过更高效的采样或过滤机制来优化测试时计算值得探索。此外,本文未直接提升sLMs的核心推理能力,未来可以考虑结合工具增强环境中的强化学习(如文献[43, 49]所述),或与其他领域(如机器人学中的多代理系统)的研究相结合,探索如何在交互式任务中进一步提升sLMs的决策和规划能力。最后,本文的结果也让我联想到RAG(检索增强生成)领域的研究,是否可以将Agent Distillation与RAG的动态检索机制更紧密结合,以解决复杂多跳推理任务中的信息不足问题?



Previous Post
From Compression to Expansion: A Layerwise Analysis of In-Context Learning
Next Post
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning