Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

本文提出SELF-TUNING框架，通过自教策略（SELF-TEACHING）显著提升大型语言模型从新文档中获取知识的能力，并在记忆、提取和推理任务上取得优异表现，同时保持较好的知识保留能力。

Large Language Model, Continual Learning, Instruction Tuning, Reasoning, Representation Learning

Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Yipeng Zhang, Haitao Mi, Helen Meng

The Chinese University of Hong Kong, Tencent AI Lab, Centre for Perceptual and Interactive Intelligence

Generated by grok-3

Background Problem

大型语言模型（LLMs）由于一次性预训练的特性，难以提供最新的信息，面对不断变化的世界知识显得过时。现有方法通常通过在新文档上继续预训练来更新模型知识，但往往在知识提取和应用上遇到困难，尤其是在问答（QA）能力受损的情况下。本文提出了一种新的学习框架SELF-TUNING，旨在通过自教策略提升LLM从未知原始文档中有效获取新知识的能力，解决知识更新和提取的关键问题。

Method

SELF-TUNING是一个三阶段的学习框架，旨在通过自教策略（SELF-TEACHING）提升LLM的知识获取能力：

阶段1：学习如何有效吸收知识：通过训练文档数据集（ $D_{train}^{Doc}$ ）和相关问答数据集（ $D_{train}^{QA}$ ），结合自教任务（ $D_{train}^{Self}$ ），训练模型从原始文档中提取知识。自教任务基于自监督方式生成，涵盖记忆、理解和自我反思三个维度，训练目标为多任务损失函数： $L_{\theta}^{Stage1} = L_{\theta}(D_{train}^{Doc}) + L_{\theta}(D_{train}^{Self}) + L_{\theta}(D_{train}^{QA})$
阶段2：学习新知识并复习问答技能：将阶段1学到的策略应用于新文档（ $D_{test}^{Doc}$ ），同时复习问答技能（ $D_{train}^{QA}$ ），目标为： $L_{\theta}^{Stage2} = L_{\theta}(D_{test}^{Doc}) + L_{\theta}(D_{train}^{QA})$
阶段3：持续学习：仅在新文档上继续训练，确保彻底吸收新知识，目标为： $L_{\theta}^{Stage3} = L_{\theta}(D_{test}^{Doc})$

SELF-TEACHING策略具体包括：

记忆（Memorization）：通过下一词预测任务，让模型记住原始文档中的事实信息。
理解（Comprehension）：设计总结、关键信息识别和自然语言推理任务，帮助模型自上而下理解文档内容。
自我反思（Self-Reflection）：通过闭卷生成任务（如教学、抽认卡、填空、多选题和句子补全），帮助模型识别和填补知识空白。

批判性思考：虽然方法设计上创新，但多阶段训练和多任务目标可能导致训练复杂性和不稳定性，尤其是在任务权重平衡和自监督任务质量控制上。此外，自教任务的生成方式可能存在偏差，未必能完全覆盖文档中的关键知识点，影响学习效果。

Experiment

实验基于三个Wiki-Newpages-2023-QA数据集（Wiki-Bio、Wiki-Multi、Wiki-Film），分别对应单领域、多领域和跨领域场景，评估模型在知识记忆、提取和推理三个任务上的表现。评估指标包括困惑度（PPL）、精确匹配（EM）、F1分数、准确率等，同时在Natural Questions (NQ)和CommonsenseQA (CSQA)数据集上测试知识保留能力。实验对象包括LLAMA2-7B、Qwen2-7B和Mistral-7B-v0.1等模型，并与继续预训练、标准指令微调和PIT方法进行对比。

结果：SELF-TUNING在所有知识获取任务中表现优于基线方法，例如在Wiki-Bio数据集上，LLAMA2-7B的PPL从继续预训练的7.28降至1.11，提取任务的EM从6.33%提升至37.25%，推理任务准确率也显著提高。在多领域和跨领域场景中，SELF-TUNING同样保持领先，尤其在跨领域知识提取任务中EM提升约13%。知识保留方面，SELF-TUNING在NQ和CSQA上的表现稳定，显示出较好的抗遗忘能力。

实验设计分析：数据集设计尽量避免与预训练数据的重叠，确保评估的可靠性，但数据集规模较小，可能无法完全代表现实世界的多样性。实验设置覆盖了多个场景和模型，较为全面，但主要集中在7B规模模型上，缺乏对更大模型的验证。此外，训练动态分析显示SELF-TUNING在长期训练中表现稳定，但未充分探讨过拟合风险。

批判性思考：虽然结果显示方法改进显著，但部分指标（如跨领域推理任务）仍有波动，表明方法对领域迁移的鲁棒性有限。此外，实验未深入分析自教任务的具体贡献，缺乏对任务设计有效性的细粒度验证。

Further Thoughts

SELF-TUNING框架通过引入人类学习理论（如费曼学习法）为LLM的知识更新提供了一个新颖视角，特别是在自监督任务设计上展现了潜力。然而，其多阶段训练和复杂任务设计可能在实际应用中面临计算资源和训练稳定性的挑战。未来研究可以探索如何简化框架，例如通过自适应任务选择减少训练开销，或结合持续学习方法（如EWC或经验回放）进一步提升知识保留能力。此外，SELF-TUNING与检索增强生成（RAG）的结合可能是一个有趣方向，通过外部知识库辅助自教过程，或许能进一步提升模型在动态知识更新中的表现，尤其是在资源受限或实时性要求高的场景中。