Skip to content
Go back 2505.16170 arXiv logo

When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction

Published:  at  11:47 AM
85.45 🤔

本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。

Large Language Model, Reasoning, Supervised Learning, Interpretability, Robustness

Yuqing Yang, Robin Jia

University of Southern California

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理、代码生成和知识召回等任务中仍会犯错,尤其是在产生与自身参数化知识相矛盾的错误答案(即幻觉)时,理想情况下应能及时承认错误并撤回(retraction),以提高可靠性和减少误信息风险。本研究聚焦于知识性问题,旨在理解LLMs为何在明知答案错误时仍不常撤回,并探索影响撤回行为的关键因素。

Method

本研究提出了以下核心方法来分析LLMs的撤回行为:

批判性思考:虽然方法设计较为系统,但数据集构建过于依赖特定知识性问题,可能无法反映其他任务中的撤回行为;此外,信念探测和操控依赖于线性假设,可能无法完全捕捉复杂的非线性信念表示;评估撤回行为依赖于另一个LLM(Llama3.3-70B-Instruct)作为裁判,可能引入判断偏差。

Experiment

实验在三个不同模型家族的LLMs(Llama3.1-8B、Qwen2.5-7B、Olmo2-7B)上进行,使用WIKIDATA和CELEBRITY两个延续数据集,分为训练和测试集。实验设置包括:

批判性思考:实验设置较为合理,涵盖多个模型和数据集,但结果显示撤回率普遍较低,可能反映了方法在实际应用中的局限性;此外,分布外性能较差(见附录),表明泛化性不足;使用单一LLM作为裁判可能影响结果可靠性,未见对裁判模型准确性的充分验证。

Further Thoughts

本文提出的内部信念概念及其对撤回行为的因果影响为理解LLMs的决策过程提供了新视角,但其研究局限于知识性短答任务,未来可探索是否适用于长篇生成或推理任务,例如在多轮对话中模型如何处理累积错误。此外,内部信念的探测和操控方法依赖线性假设,可能忽略了更复杂的非线性表示,是否可以通过更先进的表示学习方法(如深度神经网络探针)进一步揭示信念机制?另外,撤回行为与模型的安全性和可信性密切相关,是否可以通过结合强化学习(如RLHF)来增强模型在高风险场景下的撤回能力?这可能与当前对齐研究(alignment research)形成有趣的交叉点,值得进一步探索。



Previous Post
Task-Core Memory Management and Consolidation for Long-term Continual Learning
Next Post
CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging