When2Call: When (not) to Call Tools

本文提出When2Call基准，通过多选格式评估语言模型在工具调用决策上的表现，并通过偏好优化（RPO）训练方法显著提升模型在何时调用工具及何时保守行为之间的平衡能力。

Large Language Model, Tool Calling, Decision Making, Preference Optimization, Fine-Tuning, Human-AI Interaction

Hayley Ross, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara

Harvard University, NVIDIA

Generated by grok-3

Background Problem

工具调用是现代语言模型（LM）扩展能力并与现有系统集成的关键特性，尤其对于小型语言模型而言，外部工具可以弥补其知识储备不足的问题。然而，现有基准（如BFCL）主要关注工具调用的准确性，即是否调用了正确的工具并使用正确的参数，而较少评估模型在何时应（或不应）调用工具的决策能力。这种评估缺失可能导致模型在工具不可用或信息不足时产生幻觉（hallucination），如凭空生成工具或参数。为解决这一问题，作者开发了新的基准When2Call，专注于评估工具调用决策，包括何时生成工具调用、何时提出后续问题以及何时承认无法使用提供的工具回答问题。

Method

When2Call基准采用多选格式，将工具调用决策分为四种行为类型：直接文本回答（即幻觉）、工具调用、提出后续问题和承认无法回答。

核心思想：通过多选问题评估模型在不同场景下的行为选择，避免直接解析工具调用或生成的文本内容，从而聚焦于决策类型。
数据生成：基于BFCL v2 Live和APIGen数据集，使用Mixtral 8x22B模型合成生成测试和训练数据。生成过程包括过滤需要工具调用的问题，并针对每个问题生成三种变体（工具调用正确、需后续问题、无法回答），同时生成对应的多选选项。
评估方式：采用对数概率（log-probability）计算模型对四个选项的选择倾向，并提供基于LLM-as-judge的替代评估方法以支持闭源模型。
训练方法：开发了监督微调（SFT）和偏好优化（RPO）两种训练策略。SFT结合现有工具调用数据集和When2Call数据集进行微调；RPO利用多选格式构建偏好数据集，提供正确和错误回答对，优化模型在工具调用与保守行为之间的平衡。

Experiment

实验在When2Call基准、BFCL v2 Live AST和BFCL Irrelevance数据集上进行，测试了多种开源模型（如Llama 3.1/3.2、Qwen 2.5、xLAM）和闭源模型（如GPT-4系列），以及作者基于Mistral-NeMo-Minitron（4B和8B）模型的微调结果。

数据集设置：When2Call测试集包含工具调用、后续问题和无法回答三种场景，涵盖0到多个工具提供的场景，问题类型包括实时信息、数据库访问等。
实验设计合理性：多选格式和合成数据生成确保了场景覆盖的多样性，且与BFCL相比，When2Call设计了更细粒度、更具挑战性的工具-问题不匹配场景。LLM-as-judge方法补充了对闭源模型的评估，增强了实验的全面性。
结果分析：开源模型在When2Call上的表现普遍较低（F1分数在16.6-34.3之间），即使是大型模型（如Qwen 2.5 72B）也未达到理想水平，显示出工具调用决策的难度。闭源模型（如GPT-4o）表现较好（F1分数61.3），但工具幻觉率仍较高（26%）。作者的SFT和RPO训练显著提升了模型表现，RPO在When2Call上的F1分数（4B模型51.0，8B模型52.4）优于SFT，且在BFCL上的性能下降较小，表明RPO在平衡工具调用和保守行为方面更有效。
结果与预期匹配度：结果符合预期，即现有模型在工具调用决策上存在不足，而针对性训练（尤其是RPO）能有效改进表现。然而，SFT训练导致模型过于保守，部分验证了作者关于训练平衡难度的担忧。

Further Thoughts

When2Call基准在工具调用决策领域提出了一个重要的研究方向，但其依赖合成数据可能限制了评估结果在真实世界场景中的适用性。未来研究可以探索如何结合真实用户交互数据来验证或改进这一基准。此外，论文未涉及多语言和跨文化场景下的工具调用决策问题，而这在全球化应用中至关重要，例如不同语言环境下工具调用的语义理解可能存在差异。另一个值得思考的点是计算与准确性的权衡问题，作者在局限性中提到小型模型可能倾向于使用工具以提高准确性，但未提供相关实验支持；这与近期一些关于边缘设备上模型优化的研究（如移动端LM部署）有潜在联系，可以进一步探讨工具调用决策如何在资源受限环境下动态调整策略。最后，RPO训练方法的成功提示我们，偏好优化可能在其他需要行为平衡的NLP任务中（如对话系统中的主动性与保守性权衡）具有更广泛的应用前景，值得进一步研究其泛化能力。