本文通过校准感知微调(CFT和RCFT)方法,结合可校准和不可校准区域的理论框架,显著改善了偏好对齐后大型语言模型的校准性能,同时维持或提升其语言能力。
Large Language Model, Fine-tuning, Alignment, RLHF, Safety
Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen
University of Pennsylvania
Generated by grok-3
Background Problem
大型语言模型(LLMs)通过偏好对齐技术(如RLHF和DPO)显著提升了与人类价值观的一致性,但在这一过程中,模型的校准性能(即预测概率与实际准确率的对齐)显著下降。预训练模型通常具有较好的校准性,而对齐后的模型表现出过度自信和较差的校准,这在高风险领域(如法律或医疗)可能导致不可靠的决策。本文研究了偏好对齐为何影响校准,并提出解决方法以恢复校准性能,同时尽量维持对齐带来的性能优势。
Method
本文提出了两种校准感知微调方法以解决LLM对齐后的校准问题:
- 核心思想:通过分析偏好崩溃现象(模型过度偏好某一选项而忽略其他选项),设计微调策略以缓解过度自信,同时引入理论框架区分’可校准’和’不可校准’区域。
- 校准感知微调(CFT):针对可校准区域的模型,使用领域特定知识的监督微调(SFT)损失函数(如 ),增强模型对正确答案的理解,减少对错误答案的过度自信。
- 正则化校准感知微调(RCFT):针对不可校准区域的模型(即追求更高准确率时),引入基于EM算法的ECE正则化损失,结合更复杂的SFT损失(如 ),在提升准确率的同时控制校准误差。
- 理论支持:通过目标校准误差(TCE)和ECE的上下界分析,定义可校准和不可校准区域,为方法设计提供理论依据。
Experiment
实验在四个开源LLM(Llama-3.1-Tulu-8B、Vicuna-7B、Olmo2-7B、Mistral-7B)上进行,这些模型均通过RLHF或DPO对齐,初始校准性能较差。使用的数据集包括MMLU、MedMCQA、OpenBookQA和Arc-Challenge,分别评估领域内和领域外(零样本)性能。实验设置包括两种方案:领域内(训练和测试数据同域)和领域外(测试数据为不同域)。
- 结果:CFT在可校准区域显著改善校准性能,例如在Vicuna-7B上将领域内conf-ECE从0.1422降至0.0379(降低73%),同时保持或提升准确率(领域外准确率从0.5233升至0.6172)。RCFT在不可校准区域优先提升准确率,如在Llama3.1-8B-Tulu上领域内准确率从0.6228升至0.8341,但校准误差略高(conf-ECE为0.0897)。
- 对比:与基线方法(DPO/RLHF和温度缩放)相比,CFT和RCFT在校准和准确率上均有优势,尤其CFT在校准敏感任务中表现最佳。
- 合理性与局限:实验设置覆盖了多种模型和对齐方法,评估了领域内外的泛化能力,较为全面;但数据集和模型选择有限,可能无法完全代表更广泛的LLM应用场景,且对多选题以外任务的适用性未充分验证。
Further Thoughts
本文提出的校准感知微调方法在理论和实践上均有创新,但其适用范围可能受限于多选题任务。未来可以探索其在开放式生成任务(如文本生成)中的应用,特别是在需要高可信度输出的场景中。此外,校准与性能的权衡问题让我联想到其他领域的类似挑战,例如计算机视觉中分类模型的校准问题,是否可以借鉴如标签平滑或对抗训练等技术,进一步优化LLM的校准性能?同时,考虑到不同对齐方法(如RLHF和DPO)对校准的影响程度不同,是否可以通过设计对齐过程中的校准约束,从源头上减少校准退化问题?这可能是一个值得深入研究的方向。