Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge

本文通过跨任务梯度追踪工具揭示了混合训练通过增加共享参数的数量和重要性，并在关键注意力头中集中这些参数，从而教授知识并提升语言模型的事实回忆泛化能力。

Large Language Model, Fine-tuning, Reasoning, Representation Learning, Interpretability

Ying Zhang, Benjamin Heinzerling, Dongyuan Li, Ryoma Ishigaki, Yuta Hitomi, Kentaro Inui

RIKEN Center for Advanced Intelligence Project, Tohoku University, The University of Tokyo, Tokyo Denki University, Alt Inc, MBZUAI

Generated by grok-3

Background Problem

语言模型（LMs）在事实回忆（Fact Recall）任务中，即从先前获取的知识回答问题的能力，仍然面临挑战。传统的两阶段训练策略（先训练事实存储示例，如陈述句，再训练事实回忆示例，如问答对）往往导致机械记忆（Rote Memorization），无法泛化到未见问题（准确率仅9.7%）。相比之下，混合训练（同时使用事实存储和事实回忆示例）显著提升了事实回忆的准确率（达到88.6%），但其内在机制尚不明确。本研究旨在探究为何两阶段训练导致机械记忆，而混合训练能教授知识，并分析共享参数在其中的作用。

Method

本文提出了一种名为‘跨任务梯度追踪’（Cross-Task Gradient Trace）的方法，用于识别在事实存储（BIO）和事实回忆（QA）任务中均受强烈影响的‘共享参数’（Shared Parameters）。具体步骤如下：

定义与识别共享参数：通过反向传播中的梯度信息，计算每个参数在BIO和QA任务中的影响值（∆task），并选取在两个任务中排名前k的参数交集作为共享参数。
分析共享参数作用：通过消融实验（Ablation），将共享参数重置为预训练值，观察对事实回忆性能的影响；采用‘嫁接’（Grafting）方法定位与事实回忆相关的参数子集，分析共享参数在其中的比例和作用。
分布与机制分析：基于电路理论（Circuit Theory），研究共享参数在注意力头（Attention Heads）和MLP神经元中的分布，识别关键组件，并通过案例研究揭示共享参数支持的可复用注意力机制。 批判性思考：共享参数的定义依赖于梯度排名，可能因数据集规模或任务特性而有所偏差，且计算全参数影响值成本较高，论文中仅使用子集估计可能影响结果的代表性。

Experiment

实验基于合成的事实回忆数据集（包含10,000个独特个体），分为事实存储（BIO）和事实回忆（QA）两种格式，使用Llama-3.2B和Pythia-2.8B模型进行微调。实验设置包括两阶段训练（先BIO后QA）和混合训练（BIO和QA混合），并在分布外QA数据集上评估准确率。结果显示：

性能对比：混合训练模型（Mix-tuned）在分布外QA数据集上的准确率（74.7%）远高于两阶段训练模型（Stage-tuned，35.6%），表明其泛化能力更强。
共享参数作用：混合训练下共享参数数量更多（比两阶段多1.2倍），消融共享参数后Mix-tuned模型准确率下降更大（从74.7%降至8.7%），证明共享参数对泛化至关重要。
参数效率：混合训练模型在嫁接实验中以更少的参数恢复了更高的性能，共享参数占比更高。
分布分析：共享参数集中在关键注意力头中（前10%头部包含60%以上共享参数），消融这些头部导致90%性能下降。 批判性思考：实验设计合理，但仅使用合成数据可能无法反映真实世界复杂性；数据集规模较小（仅20个个体用于梯度追踪），可能影响结果的统计显著性；未探讨不同模型架构对共享参数分布的影响。

Further Thoughts

共享参数的概念为理解语言模型的跨任务泛化能力提供了新视角，值得进一步探索其在其他领域的应用，如多模态学习或指令微调（Instruction Tuning）。一个有趣的方向是，是否可以通过设计特定的训练策略或正则化方法，进一步增强共享参数的形成和集中，从而提升模型效率和泛化能力？此外，本文的研究方法（跨任务梯度追踪）可以与其他可解释性工具（如Logit Lens或Path Patching）结合，以更全面地揭示模型内部机制。另一个值得关注的问题是，共享参数的分布是否与模型规模或预训练数据特性相关，这可能为设计更高效的微调策略提供启示。