Skip to content
Go back 2505.01997 arXiv logo

Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach

Published:  at  09:32 AM
74.12 🤔

本文通过校准感知微调(CFT和RCFT)方法,结合可校准和不可校准区域的理论框架,显著改善了偏好对齐后大型语言模型的校准性能,同时维持或提升其语言能力。

Large Language Model, Fine-tuning, Alignment, RLHF, Safety

Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen

University of Pennsylvania

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过偏好对齐技术(如RLHF和DPO)显著提升了与人类价值观的一致性,但在这一过程中,模型的校准性能(即预测概率与实际准确率的对齐)显著下降。预训练模型通常具有较好的校准性,而对齐后的模型表现出过度自信和较差的校准,这在高风险领域(如法律或医疗)可能导致不可靠的决策。本文研究了偏好对齐为何影响校准,并提出解决方法以恢复校准性能,同时尽量维持对齐带来的性能优势。

Method

本文提出了两种校准感知微调方法以解决LLM对齐后的校准问题:

Experiment

实验在四个开源LLM(Llama-3.1-Tulu-8B、Vicuna-7B、Olmo2-7B、Mistral-7B)上进行,这些模型均通过RLHF或DPO对齐,初始校准性能较差。使用的数据集包括MMLU、MedMCQA、OpenBookQA和Arc-Challenge,分别评估领域内和领域外(零样本)性能。实验设置包括两种方案:领域内(训练和测试数据同域)和领域外(测试数据为不同域)。

Further Thoughts

本文提出的校准感知微调方法在理论和实践上均有创新,但其适用范围可能受限于多选题任务。未来可以探索其在开放式生成任务(如文本生成)中的应用,特别是在需要高可信度输出的场景中。此外,校准与性能的权衡问题让我联想到其他领域的类似挑战,例如计算机视觉中分类模型的校准问题,是否可以借鉴如标签平滑或对抗训练等技术,进一步优化LLM的校准性能?同时,考虑到不同对齐方法(如RLHF和DPO)对校准的影响程度不同,是否可以通过设计对齐过程中的校准约束,从源头上减少校准退化问题?这可能是一个值得深入研究的方向。



Previous Post
Looped Transformers for Length Generalization
Next Post
Efficient Single-Pass Training for Multi-Turn Reasoning