Skip to content
Go back 2505.17122 arXiv logo

Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?

Published:  at  11:32 AM
86.23 🤔

本文提出并验证了’浅层偏好信号’现象,通过截断偏好数据集(保留前40%-50% token)训练奖励模型和DPO模型,性能与完整数据集相当甚至更优,并揭示了当前对齐方法过于关注早期token的局限性。

Large Language Model, Alignment, Reinforcement Learning, Direct Preference Optimization, Efficiency

Xuan Qi, Jiahao Qiu, Xinzhe Juan, Yue Wu, Mengdi Wang

Princeton University, Tsinghua University, University of Michigan

Generated by grok-3

Background Problem

大语言模型(LLM)与人类偏好的对齐是人工智能研究中的核心挑战。当前的偏好优化方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于人类标注的偏好数据集来提升模型的对齐性能。然而,这些方法面临奖励操控(Reward Hacking)等问题,且对完整响应的依赖可能导致资源浪费和对齐不准确。本文提出了一种新颖的观察——‘浅层偏好信号’,即区分高质量和低质量响应的关键信号往往集中在响应的早期token,旨在探索通过截断数据进行高效训练的可能性,并揭示当前对齐方法在关注完整响应上的局限性。

Method

本文提出并验证了’浅层偏好信号’现象,主要方法包括以下几个方面:

Experiment

本文进行了多组实验以验证浅层偏好信号假设:

Further Thoughts

本文提出的’浅层偏好信号’现象为LLM对齐研究提供了一个新颖视角,特别是在资源受限场景下通过截断数据提升训练效率的潜力。然而,这一现象是否普遍适用于所有任务和数据集仍需进一步探索。例如,在需要长篇推理或多轮对话的任务中,早期token可能无法充分代表整体质量,截断数据可能导致关键信息的丢失。此外,作者提到的’浅层对齐’问题与真实人类偏好的偏差值得深入研究,未来可以结合心理学或认知科学,探讨人类偏好判断是否也存在类似的前期关注倾向。另一个有趣的方向是将浅层信号与分层奖励模型结合,设计动态权重机制,根据token位置调整奖励信号的重要性,以实现更全面的对齐。最后,本文的方法可能与其他高效训练技术(如参数高效微调)结合,进一步降低对齐成本,同时保持性能。



Previous Post
Can Past Experience Accelerate LLM Reasoning?
Next Post
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently