Investigating Task Arithmetic for Zero-Shot Information Retrieval

本文提出任务算术方法，通过参数加减操作实现零样本信息检索的领域和语言适应，在科学、生物医学和多语言数据集上取得最高18%的NDCG@10提升，展现了轻量级模型适应的潜力。

Zero-Shot Learning, Large Language Model, Representation Learning, Multimodal Data, Efficiency

Marco Braga, Pranav Kasela, Alessandro Raganato, Gabriella Pasi

University of Milano-Bicocca, Politecnico di Torino

Generated by grok-3

Background Problem

大型语言模型（LLMs）在自然语言处理任务中展现了出色的零样本性能，包括文档重排序等信息检索（IR）任务。然而，由于词汇和词分布的差异，模型在未见任务或领域上的效果显著下降，领域不匹配成为关键挑战。传统的解决方案如参数高效微调（PEFT）仍需标注数据，不适用于频繁的领域切换或真正的零样本场景。本文探索了一种无需训练的模型适应方法——任务算术（Task Arithmetic），旨在通过简单数学操作合并不同任务或领域预训练模型的权重，解决零样本信息检索中的领域和语言适应问题。

Method

任务算术（Task Arithmetic）是一种无需额外训练的模型合并方法，其核心思想是通过参数空间中的简单加减操作，将领域或任务特定的知识注入到信息检索模型中。具体步骤如下：

任务向量生成：从预训练模型（Θ0）和领域特定微调模型（ΘD）中计算任务向量（Task Vector），即参数差值： $\tau_D = \{\tau_1, \dots, \tau_N\}, \quad \tau_{\bar{t}} = (\theta_{\bar{t}})_D - (\theta_{\bar{t}})_0$ 。
任务向量整合：将任务向量按比例（缩放因子α）添加到信息检索微调模型（ΘT）中，生成新的领域适应模型（Θ’）： $\Theta' = \{\theta'_l = (\theta_l)_T + \alpha \tau_l\}_{l=1}^N$ 。其中，α控制领域知识的注入程度，α=1表示完全零样本场景，若有少量开发集数据则可优化α。
零样本评估：直接在目标领域或语言的IR任务上评估新模型Θ’，无需进一步训练。这种方法利用公开可用的领域特定和IR特定模型，计算成本低且易于实现。

Experiment

实验在八个公开数据集上进行，涵盖科学、生物医学和多语言领域，包括BEIR基准数据集（如TREC-COVID、NFCorpus、SCIDOCS、SciFact）和多语言数据集（如GermanQuAD、MIRACL）。评估指标包括P@10、NDCG@3、NDCG@10和MAP@100。实验涉及六种预训练模型（从66M到7B参数规模），包括编码器、编码-解码器和解码器架构。基线包括BM25、预训练模型、领域特定模型和MS-MARCO微调模型。结果显示：

在完全零样本场景（α=1）下，任务算术在部分数据集（如TREC-COVID）上优于MS-MARCO基线，但在其他数据集（如SciFact）上表现不佳。
优化α后，任务算术在大多数数据集上显著提升性能，NDCG@10最高提升18%，P@10提升15%，尤其在多语言任务中效果突出。
然而，改进并非普遍适用，某些模型（如DistilBERT在NFCorpus）在部分指标上略低于基线，且缩放因子α的最佳值因模型和数据集而异，显示出方法的不稳定性。
实验设置较为全面，但依赖少量开发集优化α与零样本目标有所冲突，且缺乏对失败案例的深入分析。总体来看，结果部分符合预期，但在通用性和稳定性上仍有改进空间。

Further Thoughts

任务算术作为一个轻量级、无需训练的模型适应方法，在资源受限场景下具有显著潜力，但其局限性值得进一步探讨。例如，参数空间的简单加减操作是否足以捕捉复杂的领域知识与IR任务之间的关系？在某些情况下，领域特定知识可能与IR目标冲突，导致性能下降，这是否可以通过更复杂的参数融合策略（如加权层级融合）解决？此外，任务算术与参数高效微调（PEFT）方法的结合可能是一个有趣的方向：是否可以在PEFT的基础上引入任务向量，进一步减少标注数据需求？另一个值得思考的点是任务算术在其他领域的应用潜力，例如在多模态任务中，是否可以通过类似方法合并视觉和语言模型的领域知识？最后，与近期的一些模型蒸馏（Distillation）研究相比，任务算术的无训练特性可能为知识转移提供新思路，但其在参数兼容性和知识冲突问题上的处理仍需更系统化的研究。