本文提出任务算术方法,通过参数加减操作实现零样本信息检索的领域和语言适应,在科学、生物医学和多语言数据集上取得最高18%的NDCG@10提升,展现了轻量级模型适应的潜力。
Zero-Shot Learning, Large Language Model, Representation Learning, Multimodal Data, Efficiency
Marco Braga, Pranav Kasela, Alessandro Raganato, Gabriella Pasi
University of Milano-Bicocca, Politecnico di Torino
Generated by grok-3
Background Problem
大型语言模型(LLMs)在自然语言处理任务中展现了出色的零样本性能,包括文档重排序等信息检索(IR)任务。然而,由于词汇和词分布的差异,模型在未见任务或领域上的效果显著下降,领域不匹配成为关键挑战。传统的解决方案如参数高效微调(PEFT)仍需标注数据,不适用于频繁的领域切换或真正的零样本场景。本文探索了一种无需训练的模型适应方法——任务算术(Task Arithmetic),旨在通过简单数学操作合并不同任务或领域预训练模型的权重,解决零样本信息检索中的领域和语言适应问题。
Method
任务算术(Task Arithmetic)是一种无需额外训练的模型合并方法,其核心思想是通过参数空间中的简单加减操作,将领域或任务特定的知识注入到信息检索模型中。具体步骤如下:
- 任务向量生成:从预训练模型(Θ0)和领域特定微调模型(ΘD)中计算任务向量(Task Vector),即参数差值:。
- 任务向量整合:将任务向量按比例(缩放因子α)添加到信息检索微调模型(ΘT)中,生成新的领域适应模型(Θ’):。其中,α控制领域知识的注入程度,α=1表示完全零样本场景,若有少量开发集数据则可优化α。
- 零样本评估:直接在目标领域或语言的IR任务上评估新模型Θ’,无需进一步训练。这种方法利用公开可用的领域特定和IR特定模型,计算成本低且易于实现。
Experiment
实验在八个公开数据集上进行,涵盖科学、生物医学和多语言领域,包括BEIR基准数据集(如TREC-COVID、NFCorpus、SCIDOCS、SciFact)和多语言数据集(如GermanQuAD、MIRACL)。评估指标包括P@10、NDCG@3、NDCG@10和MAP@100。实验涉及六种预训练模型(从66M到7B参数规模),包括编码器、编码-解码器和解码器架构。基线包括BM25、预训练模型、领域特定模型和MS-MARCO微调模型。结果显示:
- 在完全零样本场景(α=1)下,任务算术在部分数据集(如TREC-COVID)上优于MS-MARCO基线,但在其他数据集(如SciFact)上表现不佳。
- 优化α后,任务算术在大多数数据集上显著提升性能,NDCG@10最高提升18%,P@10提升15%,尤其在多语言任务中效果突出。
- 然而,改进并非普遍适用,某些模型(如DistilBERT在NFCorpus)在部分指标上略低于基线,且缩放因子α的最佳值因模型和数据集而异,显示出方法的不稳定性。
- 实验设置较为全面,但依赖少量开发集优化α与零样本目标有所冲突,且缺乏对失败案例的深入分析。总体来看,结果部分符合预期,但在通用性和稳定性上仍有改进空间。
Further Thoughts
任务算术作为一个轻量级、无需训练的模型适应方法,在资源受限场景下具有显著潜力,但其局限性值得进一步探讨。例如,参数空间的简单加减操作是否足以捕捉复杂的领域知识与IR任务之间的关系?在某些情况下,领域特定知识可能与IR目标冲突,导致性能下降,这是否可以通过更复杂的参数融合策略(如加权层级融合)解决?此外,任务算术与参数高效微调(PEFT)方法的结合可能是一个有趣的方向:是否可以在PEFT的基础上引入任务向量,进一步减少标注数据需求?另一个值得思考的点是任务算术在其他领域的应用潜力,例如在多模态任务中,是否可以通过类似方法合并视觉和语言模型的领域知识?最后,与近期的一些模型蒸馏(Distillation)研究相比,任务算术的无训练特性可能为知识转移提供新思路,但其在参数兼容性和知识冲突问题上的处理仍需更系统化的研究。