Skip to content
Go back 2504.18851 arXiv logo

When2Call: When (not) to Call Tools

Published:  at  11:16 PM
66.07 🤔

本文提出When2Call基准,通过多选格式评估语言模型在工具调用决策上的表现,并通过偏好优化(RPO)训练方法显著提升模型在何时调用工具及何时保守行为之间的平衡能力。

Large Language Model, Tool Calling, Decision Making, Preference Optimization, Fine-Tuning, Human-AI Interaction

Hayley Ross, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara

Harvard University, NVIDIA

Generated by grok-3

Background Problem

工具调用是现代语言模型(LM)扩展能力并与现有系统集成的关键特性,尤其对于小型语言模型而言,外部工具可以弥补其知识储备不足的问题。然而,现有基准(如BFCL)主要关注工具调用的准确性,即是否调用了正确的工具并使用正确的参数,而较少评估模型在何时应(或不应)调用工具的决策能力。这种评估缺失可能导致模型在工具不可用或信息不足时产生幻觉(hallucination),如凭空生成工具或参数。为解决这一问题,作者开发了新的基准When2Call,专注于评估工具调用决策,包括何时生成工具调用、何时提出后续问题以及何时承认无法使用提供的工具回答问题。

Method

When2Call基准采用多选格式,将工具调用决策分为四种行为类型:直接文本回答(即幻觉)、工具调用、提出后续问题和承认无法回答。

Experiment

实验在When2Call基准、BFCL v2 Live AST和BFCL Irrelevance数据集上进行,测试了多种开源模型(如Llama 3.1/3.2、Qwen 2.5、xLAM)和闭源模型(如GPT-4系列),以及作者基于Mistral-NeMo-Minitron(4B和8B)模型的微调结果。

Further Thoughts

When2Call基准在工具调用决策领域提出了一个重要的研究方向,但其依赖合成数据可能限制了评估结果在真实世界场景中的适用性。未来研究可以探索如何结合真实用户交互数据来验证或改进这一基准。此外,论文未涉及多语言和跨文化场景下的工具调用决策问题,而这在全球化应用中至关重要,例如不同语言环境下工具调用的语义理解可能存在差异。另一个值得思考的点是计算与准确性的权衡问题,作者在局限性中提到小型模型可能倾向于使用工具以提高准确性,但未提供相关实验支持;这与近期一些关于边缘设备上模型优化的研究(如移动端LM部署)有潜在联系,可以进一步探讨工具调用决策如何在资源受限环境下动态调整策略。最后,RPO训练方法的成功提示我们,偏好优化可能在其他需要行为平衡的NLP任务中(如对话系统中的主动性与保守性权衡)具有更广泛的应用前景,值得进一步研究其泛化能力。



Previous Post
Less is More: Towards Green Code Large Language Models via Unified Structural Pruning
Next Post
Replay to Remember: Retaining Domain Knowledge in Streaming Language Models