Skip to content
Go back 2312.13772 arXiv logo

Large Language Models are Miscalibrated In-Context Learners

Published:  at  11:24 AM
88.84 🤔

本文通过对大型语言模型在低资源场景下的校准问题进行深入分析,揭示上下文学习(ICL)未一致改善校准效果,并提出自集成方法显著提升校准性能(平均降低ECE 43%),同时维持或略提升任务性能。

In-Context Learning, Supervised Learning, Classification, Large Language Model, Robustness

Chengzu Li, Han Zhou, Goran Glavaš, Anna Korhonen, Ivan Vulić

University of Cambridge, University of Würzburg

Generated by grok-3

Background Problem

大型语言模型(LLMs)在低资源场景下常面临过自信(overconfidence)和校准不足(miscalibration)的问题,尤其是在上下文学习(ICL)范式中,尽管其任务性能有所提升,但校准效果是否一致仍是一个开放性问题。本研究聚焦于指令调整后的任务专用语言模型,探讨ICL如何影响模型校准,以及是否能在保持任务性能的同时实现更好的校准效果,为负责任的AI应用提供支持。

Method

论文提出并比较了四种学习范式在低资源场景下的表现:零样本学习(ZSL)、上下文学习(ICL)、监督微调(SFT)和监督上下文学习(SICL),并针对校准问题引入了一种自集成(self-ensembling)方法。

Experiment

实验在7个分类数据集上进行,模拟低资源场景,数据集包括SST-2、RTE等,部分可能在预训练中被模型见过。使用Flan-T5large作为主要模型,并通过预期校准误差(ECE)等指标评估校准效果。

Further Thoughts

自集成方法在校准性能上的显著提升为解决大型语言模型的过自信问题提供了一个低成本的解决方案,但其任务性能提升有限,提示我们可能需要结合其他技术(如参数高效微调或更复杂的集成策略)来实现全面优化。此外,论文中提到的数据污染问题值得进一步探索,特别是在评估ICL和SFT表现时,如何设计去污染策略或使用完全未见过的数据集可能是未来研究的一个重要方向。另一个有趣的思考是,自集成是否可以扩展到多模态模型或跨领域任务中,例如结合视觉和文本输入的变异设计,以提升多模态系统的校准和性能,这可能与现有的多模态基础模型研究(如Vision Foundation Model)产生交叉启发。最后,考虑到校准在负责任AI中的重要性,自集成方法或许可以与RLHF(基于人类反馈的强化学习)结合,进一步提升模型的信任度和安全性。



Previous Post
On the Generalization vs Fidelity Paradox in Knowledge Distillation
Next Post
Internal Chain-of-Thought: Empirical Evidence for Layer-wise Subtask Scheduling in LLMs