Skip to content
Go back 2502.00814 arXiv logo

Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling

Published:  at  11:41 AM
87.45 🤔

本文提出响应条件Bradley-Terry(Rc-BT)模型,通过区分语义意图和长度指令,显著缓解大语言模型在RLHF中的长度偏见,并提升长度指令遵循能力,实验验证了其在多个模型和数据集上的优越性。

Reinforcement Learning, Large Language Model, Alignment, Instruction Tuning

Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Yue Wang, Li Li, Wengang Zhou, Houqiang Li

University of Science and Technology of China, Independent Researcher

Generated by grok-3

Background Problem

在强化学习从人类反馈(RLHF)中,大语言模型(LLM)的偏好建模常受到长度偏见(length bias)等表面混杂因素的影响,导致模型过度优化奖励模型而偏离真实目标,倾向于选择较长响应而忽视语义质量;此外,现有模型在遵循明确长度指令(如‘少于150字’)方面表现不佳。本文旨在解决这两个关键问题:一是缓解奖励建模中的长度偏见,提升对语义质量的关注;二是增强模型对长度指令的遵循能力。

Method

本文提出了一种响应条件Bradley-Terry(Rc-BT)模型,通过区分人类语义意图和响应长度要求来缓解长度偏见并提升长度指令遵循能力。具体方法如下:

Experiment

实验在多个基础模型(Qwen2-1.5B, Qwen2.5-7B, Llama-3.1-8B)和数据集(如OpenAssistant, AlpacaEval)上进行,旨在验证Rc-BT在缓解长度偏见和提升长度指令遵循能力方面的效果。具体设置和结果如下:

Further Thoughts

Rc-BT模型在缓解长度偏见方面的创新思路值得进一步探索,尤其是在其他奖励黑客问题(如格式偏见或礼貌偏见)上的潜在应用。作者提到该框架理论上可扩展到其他指令遵循任务,但未提供具体案例,未来研究可以尝试将其应用于风格控制或内容复杂性指令等领域。此外,数据增强策略虽然有效,但计算成本的增加可能限制其在资源受限环境下的应用,是否可以通过更高效的数据采样或蒸馏方法降低成本,是一个值得思考的方向。另一个有趣的联系是与最近的一些工作(如DPO的改进版本)结合,探索是否可以通过Rc-BT的响应条件建模进一步提升DPO在多任务对齐中的稳定性,尤其是在处理冲突指令时。最后,考虑到长度偏见可能与文化或语言习惯相关,未来研究可以测试该方法在多语言环境下的表现,以验证其跨文化适应性。



Previous Post
Agentic AI: The Era of Semantic Decoding
Next Post
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation