本文通过在随机数生成、混合策略游戏和创意写作等需要不可预测性的任务上进行实验,发现流行的对齐技术会损害基础模型在这方面的能力,而基础模型在这些任务上表现更佳,这表明在常见基准性能和不可预测能力之间可能存在权衡。
Large Language Model, Alignment, RLHF, Safety, Reasoning, Generative AI
Peter West, Christopher Potts
Stanford University, University of British Columbia
Generated by gemini-2.5-flash-preview-04-17
Background Problem
大型语言模型(LLMs)的对齐(Alignment)技术,如基于人类反馈的强化学习(RLHF),已成为主流开发方法,旨在提高模型的安全性、指令遵循能力和复杂任务性能。然而,有证据表明,这些对齐技术可能正在损害基础模型(Base Models)中存在的其他有用能力,特别是那些需要不可预测性(Unpredictability)的任务,例如随机数生成、混合策略游戏和创意写作。这引发了一个重要问题:对齐是否正在积极地降低模型的某些关键能力?
Method
- 核心思想: 通过在需要不可预测性的特定任务上对比基础模型和多种对齐模型的表现,实证研究对齐技术对模型能力的影响。
- 具体方法:
- 选择Llama-3.1基础模型作为基准,并选取四种代表性的对齐方法(SFT, DPO, RLHF组合)生成的模型进行比较。
- 设计三类需要不可预测性的任务:随机数生成(衡量基本随机性)、混合策略游戏(衡量在对抗环境中的随机性应用)和创意写作(衡量艺术原创性)。
- 对每类任务设计相应的实验设置和评估指标:
- 随机数:统计分布、散度、序列模式。
- 游戏:胜率、确定性度量。
- 创意写作:人类评估(原创性、愉悦度、偏好)。
- 使用零样本提示进行模型推理,并对输出进行解析和分析。
- 在游戏任务中,构建一个了解模型概率分布的贪婪确定性对手,以测试模型的鲁棒性。
- 在诗歌任务中,采用配对比较和Bradley-Terry模型进行人类评估结果排序。
Experiment
- 模型: 使用Llama-3.1基础模型及其四种不同对齐版本(Llama-Instruct, Tulu-DPO, Tulu-SFT, Tulu-Full),包括8B和70B参数规模。
- 任务与设置:
- 随机数生成: 要求模型生成0-10之间的随机整数(独立生成和序列生成)。使用零样本提示。分析生成数字的分布(与均匀分布的散度)和序列中的重复模式。
- 混合策略游戏: 石头剪刀布和捉迷藏。模型与一个贪婪的确定性对手对战。分析模型的胜率、平局率、败率以及每一步的确定性(最可能行动的概率)。
- 创意诗歌生成: 要求模型围绕日常话题创作四行诗。对70B模型生成的诗歌进行小规模人类评估,评估维度包括原创性、愉悦度和偏好。
- 结果:
- 随机数: 对齐模型在独立生成时倾向于生成”7”,且分布散度远高于基础模型。序列生成时,对齐模型虽然整体分布更均匀,但倾向于避免重复,与真正的随机过程不符。规模增大并未总是改善随机性。
- 游戏: 基础模型在对抗确定性对手时表现最鲁棒,胜率更高。对齐模型更倾向于确定性行为,尤其在获胜或平局后确定性显著增加。
- 诗歌: 基础模型被人类评为最具原创性,但愉悦度和人类偏好度较低。对齐模型更愉悦且更受偏好,但原创性较低。人类偏好与愉悦度相关性更高,与原创性相关性较低。
- 结论: 实验结果一致表明,对齐模型在需要不可预测性的任务上性能下降,而基础模型表现更好。这支持了对齐可能损害某些能力的观点,并暗示了能力之间的权衡。
Further Thoughts
这项工作揭示了对齐技术可能带来的”副作用”,即牺牲了模型的不可预测性和原创性,以换取在常见基准上的表现和”讨人喜欢”的输出。这让我思考,未来的LLM开发是否需要更精细的对齐策略,或者甚至需要提供”未对齐”的基础模型版本供特定用途(如科研、艺术创作)使用。此外,论文中提到的”7”偏好是一个有趣的现象,这可能与训练数据中人类的偏见有关,对齐过程可能放大了这种偏见。这提示我们在构建训练和对齐数据集时,需要更深入地理解和控制其中可能包含的人类认知偏差。