Skip to content
Go back 2406.17692 arXiv logo

From Distributional to Overton Pluralism: Investigating Large Language Model Alignment

Published:  at  11:16 AM
85.12 🤔

本文通过分析对齐前后LLM输出分布的变化,揭示了对齐虽减少分布性多元化但通过更长响应实现奥弗顿多元化,且基础模型通过上下文学习可有效模仿对齐模型行为,支持表面对齐假说。

Large Language Model, Alignment, In-Context Learning, Reasoning, RLHF

Thom Lake, Eunsol Choi, Greg Durrett

The University of Texas at Austin, New York University, Indeed

Generated by grok-3

Background Problem

大型语言模型(LLM)在经过对齐过程(如监督微调SFT或人类反馈强化学习RLHF)后,其输出分布会发生显著变化,特别是在响应多样性和信息内容方面。此前研究指出,对齐会导致响应多样性减少,这可能限制模型对多样化人类偏好的适应能力。然而,这种多样性减少是否意味着有用信息的丢失,仍是一个未解之谜。此外,表面对齐假说(Superficial Alignment Hypothesis)提出,对齐模型的能力主要在预训练阶段已习得,对齐仅是放大已有子分布。本文旨在探究对齐如何改变LLM的输出分布,是否真的抑制了有用信息,以及基础模型是否能通过上下文学习(ICL)模仿对齐模型的行为。

Method

本文采用了两阶段分析方法来研究对齐对LLM输出分布的影响:

批判性思考:虽然方法设计较为系统,但依赖GPT-4进行语义评估和立场分类可能引入评估偏差,作者虽提到缓解措施,但未提供充分证据证明其有效性。此外,词汇相似度作为多样性指标可能过于简单,无法完全捕捉语义或视角的多样性,尤其是在复杂的主观问题上。

Experiment

实验在两个开放式问答数据集(CONFLICTINGQA和LIMA-OE)上进行,使用Llama 2(7B参数)系列模型(基础、聊天和ICL变体)以及Mistral系列模型,并以GPT-3.5 Turbo作为参考。实验分为两部分:

实验设计评价:实验设置较为合理,数据集选择针对开放式问题,适合评估多样性和视角。然而,仅使用两个数据集和7B参数模型限制了结果的普适性,可能无法反映更大规模模型或不同任务的表现。此外,依赖词汇相似度和GPT-4评分可能低估语义差异,未充分探讨对齐是否抑制特定视角。

结果与预期匹配性:结果支持作者假设,即对齐并未显著丢失有用信息,而是通过更长响应实现信息聚合,且基础模型通过ICL可模仿对齐行为。但结果未完全解决多样性减少是否在其他场景(如高风险应用)导致视角抑制的问题。

Further Thoughts

本文提出的从分布性多元化到奥弗顿多元化的转变为理解对齐过程提供了一个新颖视角,但其结论可能过于乐观,尤其是在未充分探讨对齐是否系统性抑制某些视角的情况下。我认为未来研究应扩展到更多样化的数据集和任务,特别是涉及跨文化视角或高风险决策的场景,以验证对齐是否真的仅是‘表面’调整,而非深层能力改变。此外,上下文学习(ICL)作为对齐替代策略的潜力令人振奋,但其在长上下文或复杂任务中的稳定性和可扩展性仍需进一步验证。结合其他研究(如Santurkar等2023年关于对齐后主观问题多样性减少的工作),可以推测ICL可能在个性化对齐中起到关键作用,但需设计更鲁棒的提示策略以避免潜在偏见放大。这也启发了一个问题:是否可以通过混合ICL和微调方法,在保持模型多样性的同时提升任务性能?



Previous Post
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning
Next Post
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions