本文提出Agent Distillation框架,通过将LLM代理的交互行为蒸馏到sLMs中,并结合first-thought prefix和self-consistent action generation方法,使小型模型在事实和数学推理任务上取得显著性能提升,接近甚至超越更大规模的CoT蒸馏模型。
Large Language Model, Reinforcement Learning, Reasoning, Multimodal Systems, Human-AI Interaction
Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang
KAIST, KRAFTON, DeepAuto.ai
Generated by grok-3
Background Problem
大型语言模型(LLMs)在复杂推理任务上表现出色,但其高昂的计算成本限制了实际部署。为此,研究者尝试将LLM的推理能力蒸馏到小型语言模型(sLMs)中。然而,传统的链式思维(CoT)蒸馏方法在需要稀有事实知识或精确计算的场景中效果不佳,sLMs容易产生幻觉。本文提出了一种新的框架——Agent Distillation,旨在将LLM代理的完整任务解决行为(包括推理和工具使用)转移到sLMs中,解决传统蒸馏方法在泛化和鲁棒性上的不足。
Method
本文提出了Agent Distillation框架,其核心思想是将LLM代理的交互式行为(reason-act-observe轨迹)蒸馏到sLMs中,使其具备使用检索和代码工具解决问题的能力。具体方法包括以下两点:
- First-Thought Prefix (ftp):通过在教师模型生成代理轨迹前引入CoT提示的首步推理作为前缀,改善教师模型轨迹质量,使其更贴近结构化推理,进而提升学生模型的学习效果。
- Self-Consistent Action Generation (sag):在测试时通过核采样生成多个候选动作序列,过滤掉无效或错误动作,并通过多数投票选择一致性最高的动作结果,从而提高小型代理的鲁棒性。
关键步骤:首先,利用教师模型(Qwen2.5-32B-Instruct)生成包含推理、动作和观察的代理轨迹;然后,通过参数高效微调(如LoRA)训练学生模型模仿这些轨迹(不包括观察部分);最后,在推理阶段结合sag方法优化动作生成。
批判性思考:虽然ftp方法在提升轨迹质量上有一定效果,但其可能导致学生模型在事实推理任务中减少检索工具的使用,增加幻觉风险。此外,sag方法依赖于多次采样和一致性投票,计算开销较高,可能影响实际部署效率。
Experiment
实验在事实推理(HotpotQA等4个数据集)和数学推理(MATH等4个数据集)两大类任务上进行,涵盖领域内和跨域泛化测试。数据集包括训练集(HotpotQA 1000例,MATH 2000例)和测试集(每个任务限制为500例或更少)。教师模型为Qwen2.5-32B-Instruct,学生模型为0.5B至7B的Qwen2.5-Instruct系列。实验设置对比了CoT蒸馏(包括RAG增强)和本文的Agent Distillation(结合ftp和sag)。
结果:Agent Distillation在所有模型规模上均表现出色,尤其在跨域任务中,小型模型(0.5B至3B)性能接近甚至超过更大规模(1.5B至7B)的CoT蒸馏模型。例如,0.5B代理模型性能接近1.5B CoT模型,3B代理模型超越7B CoT模型。ftp和sag进一步提升了性能,尤其在复杂数学任务(如AIME)上效果显著。然而,在MATH500任务上,Agent Distillation表现不如CoT蒸馏,可能由于Qwen2.5系列模型对大学数学的指令微调更适合CoT风格。
实验设计评价:实验设置较为全面,涵盖多种任务和模型规模,跨域测试也验证了泛化能力。但数据集规模较小(测试集限制为500例),可能影响结果的统计显著性。此外,sag方法的高计算开销未被充分讨论,可能低估了实际应用中的效率问题。
Further Thoughts
本文提出的Agent Distillation框架为小型语言模型的实用化提供了一条有前景的路径,但其局限性也启发了一些深入思考。首先,first-thought prefix方法在减少检索工具使用时可能导致幻觉问题,这提示我们是否可以通过更智能的提示设计或轨迹生成策略(如结合强化学习或奖励模型)来平衡内部知识和外部工具的使用。其次,sag方法虽然提升了鲁棒性,但其计算开销较高,是否可以通过更高效的采样或过滤机制来优化测试时计算值得探索。此外,本文未直接提升sLMs的核心推理能力,未来可以考虑结合工具增强环境中的强化学习(如文献[43, 49]所述),或与其他领域(如机器人学中的多代理系统)的研究相结合,探索如何在交互式任务中进一步提升sLMs的决策和规划能力。最后,本文的结果也让我联想到RAG(检索增强生成)领域的研究,是否可以将Agent Distillation与RAG的动态检索机制更紧密结合,以解决复杂多跳推理任务中的信息不足问题?