Skip to content
Go back 2505.07166 arXiv logo

Pre-training vs. Fine-tuning: A Reproducibility Study on Dense Retrieval Knowledge Acquisition

Published:  at  11:16 AM
87.67 🤔

本文通过线性探查和神经元激活分析,复制并扩展了对密集检索模型中预训练与微调知识获取作用的研究,发现预训练知识在DPR模型中主导检索效果且微调导致知识分散,但此结论在不同架构(如Contriever、RepLlama)和表示策略下并不成立。

Contrastive Learning, Pre-training, Fine-tuning, Representation Learning, Embeddings

Zheng Yao, Shuai Wang, Guido Zuccon

The University of Queensland

Generated by grok-3

Background Problem

密集检索模型依赖预训练语言模型(如BERT、LLaMA)通过对比学习进行微调,以将文本编码为可通过浅层相似性操作(如内积)比较的向量表示。然而,关于预训练和微调在知识获取中的具体作用仍未明确,尤其是微调是否能引入新知识,还是仅调整预训练模型的内部知识结构。近期研究(如Reichman和Heck)提出,预训练阶段可能已决定了检索知识的上限,微调仅分散或重组现有知识,而非新增知识。这一问题至关重要,因为它可能影响密集检索模型的训练策略和设计方向,例如是否需要专门为检索任务设计预训练过程。

Method

本文通过复制和扩展Reichman和Heck的研究,系统探讨了密集检索模型中预训练与微调的知识获取和分布机制。具体方法包括:

Experiment

实验设计涵盖了多个维度以验证结论的普适性:

Further Thoughts

本文的研究揭示了密集检索模型中知识分布与模型架构和表示策略的复杂关系,值得进一步探讨。例如,DPR查询和文档编码器的不同表现可能与输入长度和任务特性有关,未来可以设计专门的实验分析长文本压缩对知识表示的影响。此外,Contriever和RepLlama的反转趋势提示我们,mean pooling和EOS token可能更适合捕捉分布式语义信息,这与生成式检索框架的趋势相呼应,是否可以通过结合生成式和密集检索方法进一步提升效果?另一个值得思考的方向是,线性探查和神经元归因方法的可靠性问题,是否可以通过引入更直接的知识追踪技术(如注意力机制分析)来验证知识流?最后,本文未涉及更大规模模型(如超过7B参数)或编码器-解码器架构(如T5),而这些模型可能因参数量和结构差异展现不同特性,未来研究应扩展至这些领域,以全面理解密集检索模型的知识处理机制。



Previous Post
Communicating Activations Between Language Model Agents
Next Post
Improving Multilingual Language Models by Aligning Representations through Steering