Distilling LLM Agent into Small Models with Retrieval and Code Tools

本文提出Agent Distillation框架，通过将LLM代理的交互行为蒸馏到sLMs中，并结合first-thought prefix和self-consistent action generation方法，使小型模型在事实和数学推理任务上取得显著性能提升，接近甚至超越更大规模的CoT蒸馏模型。

Large Language Model, Reinforcement Learning, Reasoning, Multimodal Systems, Human-AI Interaction

Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang

KAIST, KRAFTON, DeepAuto.ai

Generated by grok-3

Background Problem

大型语言模型（LLMs）在复杂推理任务上表现出色，但其高昂的计算成本限制了实际部署。为此，研究者尝试将LLM的推理能力蒸馏到小型语言模型（sLMs）中。然而，传统的链式思维（CoT）蒸馏方法在需要稀有事实知识或精确计算的场景中效果不佳，sLMs容易产生幻觉。本文提出了一种新的框架——Agent Distillation，旨在将LLM代理的完整任务解决行为（包括推理和工具使用）转移到sLMs中，解决传统蒸馏方法在泛化和鲁棒性上的不足。

Method

本文提出了Agent Distillation框架，其核心思想是将LLM代理的交互式行为（reason-act-observe轨迹）蒸馏到sLMs中，使其具备使用检索和代码工具解决问题的能力。具体方法包括以下两点：

First-Thought Prefix (ftp)：通过在教师模型生成代理轨迹前引入CoT提示的首步推理作为前缀，改善教师模型轨迹质量，使其更贴近结构化推理，进而提升学生模型的学习效果。
Self-Consistent Action Generation (sag)：在测试时通过核采样生成多个候选动作序列，过滤掉无效或错误动作，并通过多数投票选择一致性最高的动作结果，从而提高小型代理的鲁棒性。

关键步骤：首先，利用教师模型（Qwen2.5-32B-Instruct）生成包含推理、动作和观察的代理轨迹；然后，通过参数高效微调（如LoRA）训练学生模型模仿这些轨迹（不包括观察部分）；最后，在推理阶段结合sag方法优化动作生成。

批判性思考：虽然ftp方法在提升轨迹质量上有一定效果，但其可能导致学生模型在事实推理任务中减少检索工具的使用，增加幻觉风险。此外，sag方法依赖于多次采样和一致性投票，计算开销较高，可能影响实际部署效率。

Experiment

实验在事实推理（HotpotQA等4个数据集）和数学推理（MATH等4个数据集）两大类任务上进行，涵盖领域内和跨域泛化测试。数据集包括训练集（HotpotQA 1000例，MATH 2000例）和测试集（每个任务限制为500例或更少）。教师模型为Qwen2.5-32B-Instruct，学生模型为0.5B至7B的Qwen2.5-Instruct系列。实验设置对比了CoT蒸馏（包括RAG增强）和本文的Agent Distillation（结合ftp和sag）。

结果：Agent Distillation在所有模型规模上均表现出色，尤其在跨域任务中，小型模型（0.5B至3B）性能接近甚至超过更大规模（1.5B至7B）的CoT蒸馏模型。例如，0.5B代理模型性能接近1.5B CoT模型，3B代理模型超越7B CoT模型。ftp和sag进一步提升了性能，尤其在复杂数学任务（如AIME）上效果显著。然而，在MATH500任务上，Agent Distillation表现不如CoT蒸馏，可能由于Qwen2.5系列模型对大学数学的指令微调更适合CoT风格。

实验设计评价：实验设置较为全面，涵盖多种任务和模型规模，跨域测试也验证了泛化能力。但数据集规模较小（测试集限制为500例），可能影响结果的统计显著性。此外，sag方法的高计算开销未被充分讨论，可能低估了实际应用中的效率问题。

Further Thoughts

本文提出的Agent Distillation框架为小型语言模型的实用化提供了一条有前景的路径，但其局限性也启发了一些深入思考。首先，first-thought prefix方法在减少检索工具使用时可能导致幻觉问题，这提示我们是否可以通过更智能的提示设计或轨迹生成策略（如结合强化学习或奖励模型）来平衡内部知识和外部工具的使用。其次，sag方法虽然提升了鲁棒性，但其计算开销较高，是否可以通过更高效的采样或过滤机制来优化测试时计算值得探索。此外，本文未直接提升sLMs的核心推理能力，未来可以考虑结合工具增强环境中的强化学习（如文献[43, 49]所述），或与其他领域（如机器人学中的多代理系统）的研究相结合，探索如何在交互式任务中进一步提升sLMs的决策和规划能力。最后，本文的结果也让我联想到RAG（检索增强生成）领域的研究，是否可以将Agent Distillation与RAG的动态检索机制更紧密结合，以解决复杂多跳推理任务中的信息不足问题？