Pre-training vs. Fine-tuning: A Reproducibility Study on Dense Retrieval Knowledge Acquisition

本文通过线性探查和神经元激活分析，复制并扩展了对密集检索模型中预训练与微调知识获取作用的研究，发现预训练知识在DPR模型中主导检索效果且微调导致知识分散，但此结论在不同架构（如Contriever、RepLlama）和表示策略下并不成立。

Contrastive Learning, Pre-training, Fine-tuning, Representation Learning, Embeddings

Zheng Yao, Shuai Wang, Guido Zuccon

The University of Queensland

Generated by grok-3

Background Problem

密集检索模型依赖预训练语言模型（如BERT、LLaMA）通过对比学习进行微调，以将文本编码为可通过浅层相似性操作（如内积）比较的向量表示。然而，关于预训练和微调在知识获取中的具体作用仍未明确，尤其是微调是否能引入新知识，还是仅调整预训练模型的内部知识结构。近期研究（如Reichman和Heck）提出，预训练阶段可能已决定了检索知识的上限，微调仅分散或重组现有知识，而非新增知识。这一问题至关重要，因为它可能影响密集检索模型的训练策略和设计方向，例如是否需要专门为检索任务设计预训练过程。

Method

本文通过复制和扩展Reichman和Heck的研究，系统探讨了密集检索模型中预训练与微调的知识获取和分布机制。具体方法包括：

线性探查（Linear Probing）：通过在模型各层提取的嵌入上训练线性分类器，评估嵌入是否编码了区分相关与无关文档的判别信息。分类任务为判断查询与多个文档（一个相关，余为困难负例）间的相关性，准确率高表明嵌入包含有意义的知识结构。实验对比了预训练模型与微调模型在不同层级的表现。
神经元激活分析（Neuron Activation Analysis）：采用集成梯度（Integrated Gradients, IG）方法，量化每个神经元激活对最终嵌入的影响，分析微调是否导致知识分散（即中间层神经元激活增加，多个神经元共同贡献检索知识）。具体步骤包括计算神经元归因、应用阈值筛选活跃神经元，并聚合数据集上的结果以观察全局模式。
扩展实验设计：相较于原始研究仅关注BERT和DPR（CLS token表示），本文扩展至不同表示方法（mean pooling的Contriever、EOS token的RepLlama）、不同架构（编码器BERT vs. 解码器LLaMA）以及额外数据集（MS MARCO，补充Natural Questions）。 批判性思考：线性探查和神经元归因方法虽为领域内常用技术，但其在密集检索中的可靠性未被充分验证，可能无法完全反映知识分布的真实情况。此外，原始研究未提供详细的数据处理和超参数设置，导致复制结果存在偏差，方法透明度不足。

Experiment

实验设计涵盖了多个维度以验证结论的普适性：

数据集：使用Natural Questions (NQ)和MS MARCO，均包含查询-相关文档对及困难负例。数据预处理涉及随机采样负例以构建训练样本，但原始研究的数据构建细节不明，导致复制结果准确率低于预期（约低10-15%）。
模型：对比三组模型及其预训练基线：DPR vs. BERT-CLS、Contriever vs. BERT-Mean、RepLlama vs. Llama，分别对应CLS token、mean pooling和EOS token表示方法。
实验设置：线性探查实验评估了不同文档数量（N=2,3,4,5）下的分类准确率；神经元激活分析聚焦于Transformer块的线性子层，计算神经元归因并统计活跃神经元比例。
结果：1) 在DPR和BERT-CLS设置下，线性探查结果支持Reichman和Heck的结论，预训练模型已具备较强判别能力（准确率50-60%），DPR微调未显著提升；神经元分析显示中间层激活增加32-41%，支持知识分散假设。2) 但在Contriever（mean pooling）和RepLlama（EOS token, 解码器架构）中，趋势反转，微调后中间层激活减少，判别能力在深层显著提升（RepLlama深层准确率提高18-22%）。3) DPR查询和文档编码器表现不一致，文档编码器判别能力较弱，输出层激活更强。
评估与批判：实验设置较为全面，涵盖了多种架构和数据集，但结果表明原始结论不具普适性，高度依赖特定模型和表示策略。复制结果的准确率低于预期，可能是由于数据和超参数差异，凸显了原始研究方法透明度不足的问题。此外，实验未深入探讨为何不同架构和策略导致结果差异，仅提供初步解释，缺乏机制性分析。

Further Thoughts

本文的研究揭示了密集检索模型中知识分布与模型架构和表示策略的复杂关系，值得进一步探讨。例如，DPR查询和文档编码器的不同表现可能与输入长度和任务特性有关，未来可以设计专门的实验分析长文本压缩对知识表示的影响。此外，Contriever和RepLlama的反转趋势提示我们，mean pooling和EOS token可能更适合捕捉分布式语义信息，这与生成式检索框架的趋势相呼应，是否可以通过结合生成式和密集检索方法进一步提升效果？另一个值得思考的方向是，线性探查和神经元归因方法的可靠性问题，是否可以通过引入更直接的知识追踪技术（如注意力机制分析）来验证知识流？最后，本文未涉及更大规模模型（如超过7B参数）或编码器-解码器架构（如T5），而这些模型可能因参数量和结构差异展现不同特性，未来研究应扩展至这些领域，以全面理解密集检索模型的知识处理机制。