本文提出Nemotron-Research-Tool-N1,通过基于规则的强化学习和二元奖励函数训练工具调用语言模型,在不依赖标注推理轨迹的情况下显著提升工具调用能力,实验表明其在多个基准上超越GPT-4o等强基线。
Reinforcement Learning, Large Language Model, Reasoning, Multimodal Systems, Human-AI Interaction
Shaokun Zhang, Yi Dong, Jieyu Zhang, Jan Kautz, Bryan Catanzaro, Andrew Tao, Qingyun Wu, Zhiding Yu, Guilin Liu
NVIDIA, Pennsylvania State University, University of Washington
Generated by grok-3
Background Problem
大型语言模型(LLMs)通过集成外部工具(如搜索引擎、计算器、Python解释器等)显著扩展了其功能,超越了纯文本任务。然而,现有方法主要依赖于从更强模型中蒸馏的工具使用轨迹进行监督微调(SFT),这往往导致模型仅模仿表面模式,缺乏真正的推理能力,泛化性受限。本文旨在解决这一问题,探索如何通过基于规则的强化学习(R1-style RL)增强LLMs的工具调用能力,使其在不依赖标注推理轨迹的情况下自主发展推理策略。
Method
本文提出了一种基于规则的强化学习方法,用于训练工具调用语言模型,命名为Nemotron-Research-Tool-N1(Tool-N1)。其核心思想和实现步骤如下:
- 核心思想:通过R1风格的强化学习,使用简单的二元奖励函数,仅对工具调用的格式正确性和功能正确性进行监督,而不强制监督中间推理过程,允许模型自主探索推理策略。
- 训练框架:采用GRPO算法进行策略优化,基于历史上下文和可用工具集生成候选响应,并通过奖励函数评估响应质量。奖励函数定义为二元形式,只有当输出格式正确(使用
和<tool_call>标签)和工具调用完全匹配ground truth时才给予奖励1,否则为0。 - 数据准备:从xLAM和ToolACE数据集中提取工具调用轨迹,进行标准化处理,过滤无效样本,确保数据一致性,适用于RL训练。
- 推理模板:设计轻量级提示模板,指导模型在
标签内输出推理过程,在<tool_call>标签内输出工具调用,以结构化方式分离推理和行动,增强泛化性。 - 关键创新:相比SFT的严格下一token预测,RL方法允许语义等价的工具调用(如参数顺序不同)获得奖励,避免表面模仿,提升模型对工具使用的内在理解。
批判性思考:虽然方法设计上强调灵活性,但二元奖励的严格性可能导致模型在部分正确但未完全匹配的情况下无法获得反馈,潜在限制了学习效率。此外,方法对数据质量依赖较高,预处理步骤可能过滤掉真实场景中的噪声数据,影响模型鲁棒性。
Experiment
实验设计和结果如下:
- 数据集与基准:使用ToolACE和xLAM数据集进行训练,并在BFCL、APIBank和ACEBench三个基准上评估工具调用准确性。BFCL包括Live(真实用户查询)和Non-Live(合成数据)子集,覆盖简单、多个、并行等多种场景。
- 模型与对比:基于Qwen2.5-7B/14B-Instruct构建Tool-N1-7B/14B,与GPT-4o、GPT-4o-mini、DeepSeek-R1等闭源模型及ToolACE-8B、Hammer2.1-7B等专用模型对比。
- 结果:Tool-N1-14B在BFCL上整体准确率达85.97%,超越GPT-4o(83.97%);在APIBank和ACEBench上分别提升约5%和超过30%。Tool-N1-7B也优于GPT-4o-mini和部分专用模型。实验显示R1风格RL比SFT基线有显著改进,尤其在真实场景(Live数据)中表现突出。
- 深入分析:通过5,518个蒸馏推理轨迹对比SFT、RL及SFT-then-RL,发现纯RL(83.24%)优于SFT-then-RL(83.17%)和纯SFT(82.71%),挑战了SFT-then-RL为最佳实践的观点。奖励设计消融实验表明二元奖励优于细粒度奖励,尤其在Live数据上(80.38% vs. 76.61%)。
- 实验设置合理性:实验覆盖多种模型规模和骨干(如Qwen、LLaMA),验证了方法的扩展性和泛化性。基准选择广泛,包含合成和真实数据,设置较为全面。但多轮交互场景被排除,限制了对复杂工具使用场景的评估。
- 批判性思考:虽然结果显示出方法优势,但性能提升在小规模模型(0.5B、1.5B)上不明显,表明方法可能更适合大模型。此外,数据预处理过于严格,可能导致模型对真实世界噪声数据适应性不足。实验未充分探讨推理长度与性能的关系,仅观察到响应长度未显著增加,未提供更深层解释。
Further Thoughts
本文提出的纯RL优于SFT-then-RL的发现,对当前LLM训练范式有重要启示,尤其是在工具调用等高度结构化任务中。是否可以在其他领域(如数学推理或代码生成)中验证这一结论,值得进一步研究。此外,二元奖励设计虽然有效,但其严格性可能限制了模型对部分正确输出的学习,未来可以探索自适应奖励机制,根据任务复杂性动态调整奖励粒度。另一个有趣方向是多轮交互场景的扩展,工具调用在实际应用中往往涉及多步交互和上下文依赖,本文未深入探讨这一领域,而这可能是提升模型实用性的关键。此外,结合当前关于结构化推理的研究,是否可以通过更灵活的推理格式设计(如非XML标签)进一步提升模型在自由格式任务中的表现,也是一个值得探索的问题。最后,考虑到数据预处理的严格性,引入噪声数据或对抗样本训练可能有助于提升模型在真实场景中的鲁棒性,这与当前关于数据中心AI(Data-Centric AI)的趋势相呼应。