Skip to content
Go back 2505.00047 arXiv logo

Base Models Beat Aligned Models at Randomness and Creativity

Published:  at  01:17 AM
85.43 😐

本文通过在随机数生成、混合策略游戏和创意写作等需要不可预测性的任务上进行实验,发现流行的对齐技术会损害基础模型在这方面的能力,而基础模型在这些任务上表现更佳,这表明在常见基准性能和不可预测能力之间可能存在权衡。

Large Language Model, Alignment, RLHF, Safety, Reasoning, Generative AI

Peter West, Christopher Potts

Stanford University, University of British Columbia

Generated by gemini-2.5-flash-preview-04-17

Background Problem

大型语言模型(LLMs)的对齐(Alignment)技术,如基于人类反馈的强化学习(RLHF),已成为主流开发方法,旨在提高模型的安全性、指令遵循能力和复杂任务性能。然而,有证据表明,这些对齐技术可能正在损害基础模型(Base Models)中存在的其他有用能力,特别是那些需要不可预测性(Unpredictability)的任务,例如随机数生成、混合策略游戏和创意写作。这引发了一个重要问题:对齐是否正在积极地降低模型的某些关键能力?

Method

Experiment

Further Thoughts

这项工作揭示了对齐技术可能带来的”副作用”,即牺牲了模型的不可预测性和原创性,以换取在常见基准上的表现和”讨人喜欢”的输出。这让我思考,未来的LLM开发是否需要更精细的对齐策略,或者甚至需要提供”未对齐”的基础模型版本供特定用途(如科研、艺术创作)使用。此外,论文中提到的”7”偏好是一个有趣的现象,这可能与训练数据中人类的偏见有关,对齐过程可能放大了这种偏见。这提示我们在构建训练和对齐数据集时,需要更深入地理解和控制其中可能包含的人类认知偏差。



Previous Post
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
Next Post
Phi-4-reasoning Technical Report