Skip to content
Go back 2505.13820 arXiv logo

Structured Agent Distillation for Large Language Model

Published:  at  11:23 AM
85.73 🤔

本文提出结构化代理蒸馏框架,通过分割大型语言模型代理轨迹为推理和行动片段并施加分段特定监督,在压缩模型时显著提升任务成功率、推理效率和一致性,优于token级基线。

Large Language Model, Reinforcement Learning, Reasoning, Agent, Efficiency

Jun Liu, Zhenglun Kong, Peiyan Dong, Changdi Yang, Tianqi Li, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

Carnegie Mellon University, Northeastern University, Harvard University, MIT, Peking University, University of Georgia, Florida International University

Generated by grok-3

Background Problem

大型语言模型(LLMs)作为决策代理在ReAct等框架中通过交错推理和行动展现出强大能力,但其高推理成本和大模型体积限制了实际部署。传统token级蒸馏方法忽略了代理行为中推理和行动的结构化特性,导致学生模型在压缩过程中丢失关键的推理逻辑和行动一致性。本文提出了一种结构化代理蒸馏(Structured Agent Distillation, SAD)框架,旨在通过分割轨迹并施加分段特定监督,解决如何在压缩模型时保留推理和行动一致性的问题。

Method

本文提出的结构化代理蒸馏(SAD)框架核心在于将教师模型生成的轨迹分割为推理([REASON])和行动([ACT])两个部分,并对每个部分施加特定的监督损失以训练学生模型。具体步骤如下:

批判性思考:虽然方法在理论上通过语义解耦来提升学生模型对教师行为的模仿能力,但规则 기반的分割方法可能在复杂任务中缺乏鲁棒性,尤其是在非文本或非ReAct风格的代理任务中。此外,损失函数的加权方式(简单相等)可能未充分优化推理和行动之间的平衡,缺乏对权重选择的深入探讨。

Experiment

实验在三个代理环境(ALFWorld、WebShop、HotPotQA-ReAct)上进行,评估了从GPT-2-1.5B、OPT-13B和LLaMA-13B教师模型蒸馏到不同规模学生模型(120M至7B)的效果。实验设置包括:

批判性思考:虽然结果显示改进,但与基线的差距(例如任务成功率提升4-5%)是否足够显著以证明方法的实用性值得商榷。实验未充分探讨不同任务类型或模型架构对结果的影响,缺乏对分割规则鲁棒性的验证。此外,延迟指标以步骤数而非实际时间计算,可能无法完全反映真实部署场景中的效率。

Further Thoughts

本文提出的结构化代理蒸馏框架在理论上为代理行为的压缩提供了一个新视角,但其实际应用价值仍需进一步验证。特别是,规则 기반的分割方法可能在面对多模态代理或非结构化任务时遇到挑战,未来可以探索基于学习的分段方法以提高鲁棒性。此外,课程学习机制的潜力未被充分挖掘,结合自适应复杂性评分或与强化学习(RL)方法结合可能进一步提升训练稳定性。另一个有趣的方向是将此框架与其他压缩技术(如量化或剪枝)结合,探索在边缘设备上的部署可能性,尤其是在机器人或实时决策场景中。最后,本文的方法可能与多代理协作框架(如LangChain或AutoGen)结合,研究如何在多代理系统中实现结构化知识转移,这可能对构建高效的分布式AI系统具有重要意义。



Previous Post
Differentially Private Bilevel Optimization
Next Post
Gameplay Highlights Generation