Skip to content
Go back 2505.00649 arXiv logo

Investigating Task Arithmetic for Zero-Shot Information Retrieval

Published:  at  08:43 AM
86.02 🤔

本文提出任务算术方法,通过参数加减操作实现零样本信息检索的领域和语言适应,在科学、生物医学和多语言数据集上取得最高18%的NDCG@10提升,展现了轻量级模型适应的潜力。

Zero-Shot Learning, Large Language Model, Representation Learning, Multimodal Data, Efficiency

Marco Braga, Pranav Kasela, Alessandro Raganato, Gabriella Pasi

University of Milano-Bicocca, Politecnico di Torino

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理任务中展现了出色的零样本性能,包括文档重排序等信息检索(IR)任务。然而,由于词汇和词分布的差异,模型在未见任务或领域上的效果显著下降,领域不匹配成为关键挑战。传统的解决方案如参数高效微调(PEFT)仍需标注数据,不适用于频繁的领域切换或真正的零样本场景。本文探索了一种无需训练的模型适应方法——任务算术(Task Arithmetic),旨在通过简单数学操作合并不同任务或领域预训练模型的权重,解决零样本信息检索中的领域和语言适应问题。

Method

任务算术(Task Arithmetic)是一种无需额外训练的模型合并方法,其核心思想是通过参数空间中的简单加减操作,将领域或任务特定的知识注入到信息检索模型中。具体步骤如下:

  1. 任务向量生成:从预训练模型(Θ0)和领域特定微调模型(ΘD)中计算任务向量(Task Vector),即参数差值:τD={τ1,,τN},τtˉ=(θtˉ)D(θtˉ)0\tau_D = \{\tau_1, \dots, \tau_N\}, \quad \tau_{\bar{t}} = (\theta_{\bar{t}})_D - (\theta_{\bar{t}})_0
  2. 任务向量整合:将任务向量按比例(缩放因子α)添加到信息检索微调模型(ΘT)中,生成新的领域适应模型(Θ’):Θ={θl=(θl)T+ατl}l=1N\Theta' = \{\theta'_l = (\theta_l)_T + \alpha \tau_l\}_{l=1}^N。其中,α控制领域知识的注入程度,α=1表示完全零样本场景,若有少量开发集数据则可优化α。
  3. 零样本评估:直接在目标领域或语言的IR任务上评估新模型Θ’,无需进一步训练。这种方法利用公开可用的领域特定和IR特定模型,计算成本低且易于实现。

Experiment

实验在八个公开数据集上进行,涵盖科学、生物医学和多语言领域,包括BEIR基准数据集(如TREC-COVID、NFCorpus、SCIDOCS、SciFact)和多语言数据集(如GermanQuAD、MIRACL)。评估指标包括P@10、NDCG@3、NDCG@10和MAP@100。实验涉及六种预训练模型(从66M到7B参数规模),包括编码器、编码-解码器和解码器架构。基线包括BM25、预训练模型、领域特定模型和MS-MARCO微调模型。结果显示:

Further Thoughts

任务算术作为一个轻量级、无需训练的模型适应方法,在资源受限场景下具有显著潜力,但其局限性值得进一步探讨。例如,参数空间的简单加减操作是否足以捕捉复杂的领域知识与IR任务之间的关系?在某些情况下,领域特定知识可能与IR目标冲突,导致性能下降,这是否可以通过更复杂的参数融合策略(如加权层级融合)解决?此外,任务算术与参数高效微调(PEFT)方法的结合可能是一个有趣的方向:是否可以在PEFT的基础上引入任务向量,进一步减少标注数据需求?另一个值得思考的点是任务算术在其他领域的应用潜力,例如在多模态任务中,是否可以通过类似方法合并视觉和语言模型的领域知识?最后,与近期的一些模型蒸馏(Distillation)研究相比,任务算术的无训练特性可能为知识转移提供新思路,但其在参数兼容性和知识冲突问题上的处理仍需更系统化的研究。



Previous Post
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
Next Post
Activation Space Interventions Can Be Transferred Between Large Language Models