本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
Large Language Model, Reasoning, Supervised Learning, Interpretability, Robustness
Yuqing Yang, Robin Jia
University of Southern California
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理、代码生成和知识召回等任务中仍会犯错,尤其是在产生与自身参数化知识相矛盾的错误答案(即幻觉)时,理想情况下应能及时承认错误并撤回(retraction),以提高可靠性和减少误信息风险。本研究聚焦于知识性问题,旨在理解LLMs为何在明知答案错误时仍不常撤回,并探索影响撤回行为的关键因素。
Method
本研究提出了以下核心方法来分析LLMs的撤回行为:
- 数据集构建:为每个目标模型构建特定的’延续’数据集(continuation dataset),包括知识性问题(如WIKIDATA和CELEBRITY数据集),通过温度采样收集模型生成的错误答案,并通过验证问题筛选出模型明知错误的答案,促使模型在错误答案后继续生成以观察是否撤回。
- 内部信念探测(Probing):通过训练线性探针(linear probe)分析模型隐藏状态,识别模型对答案正确性的内部信念(internal belief),并观察信念与撤回行为的相关性。
- 信念操控(Belief Steering):通过在答案最后一个token处添加或减去信念方向向量(difference-in-means vector),操控模型对答案正确性的感知,验证内部信念对撤回行为的因果影响。
- 机制分析:分析信念如何通过影响生成停止决策(stop rate)和注意力机制(attention weights及value vectors)控制撤回行为。
- 监督微调(SFT):通过在分布内数据上进行监督微调,调整模型内部信念以提高撤回性能。
批判性思考:虽然方法设计较为系统,但数据集构建过于依赖特定知识性问题,可能无法反映其他任务中的撤回行为;此外,信念探测和操控依赖于线性假设,可能无法完全捕捉复杂的非线性信念表示;评估撤回行为依赖于另一个LLM(Llama3.3-70B-Instruct)作为裁判,可能引入判断偏差。
Experiment
实验在三个不同模型家族的LLMs(Llama3.1-8B、Qwen2.5-7B、Olmo2-7B)上进行,使用WIKIDATA和CELEBRITY两个延续数据集,分为训练和测试集。实验设置包括:
- 撤回性能评估:结果显示所有模型撤回召回率(recall)较低(最高仅25%),尽管它们具备撤回能力且明知答案错误,表明模型不愿撤回。
- 信念探测与操控:探测实验表明模型内部信念与撤回行为高度相关,而非与事实正确性相关;操控实验显示,负向信念操控(belief-)使撤回率提升至70%以上,正向信念操控(belief+)则几乎抑制所有撤回,证明了因果关系。
- 机制分析:负向信念操控降低生成停止率,促使模型生成额外信息进行验证,并通过增加对答案的注意力权重和调整注意力值向量促进撤回。
- 监督微调:SFT显著提高分布内撤回性能(如Llama3.1-8B在WIKIDATA上的recall从0.2529提升至0.8453),并通过调整内部信念使其更接近事实正确性。
批判性思考:实验设置较为合理,涵盖多个模型和数据集,但结果显示撤回率普遍较低,可能反映了方法在实际应用中的局限性;此外,分布外性能较差(见附录),表明泛化性不足;使用单一LLM作为裁判可能影响结果可靠性,未见对裁判模型准确性的充分验证。
Further Thoughts
本文提出的内部信念概念及其对撤回行为的因果影响为理解LLMs的决策过程提供了新视角,但其研究局限于知识性短答任务,未来可探索是否适用于长篇生成或推理任务,例如在多轮对话中模型如何处理累积错误。此外,内部信念的探测和操控方法依赖线性假设,可能忽略了更复杂的非线性表示,是否可以通过更先进的表示学习方法(如深度神经网络探针)进一步揭示信念机制?另外,撤回行为与模型的安全性和可信性密切相关,是否可以通过结合强化学习(如RLHF)来增强模型在高风险场景下的撤回能力?这可能与当前对齐研究(alignment research)形成有趣的交叉点,值得进一步探索。