Skip to content
Go back 2504.16272 arXiv logo

Learning Explainable Dense Reward Shapes via Bayesian Optimization

Published:  at  04:30 PM
55.26 🤔

本文提出一种通过Bayesian Optimization学习解释性密集奖励形状的方法,以解决RLHF中奖励稀疏问题,实现token级信用分配优化,提升训练效率和性能,同时保持最优政策不变。

Reinforcement Learning, Reward Shaping, Token-Level Credit Assignment, Explainability Methods, Bayesian Optimization, Policy Training

Ryan Koo, Ian Yang, Vipul Raheja, Mingyi Hong, Kwang-Sung Jun, Dongyeop Kang

University of Minnesota, Georgia Institute of Technology, Grammarly, University of Arizona

Generated by grok-3-mini-latest

Background Problem

当前强化学习从人类反馈(RLHF)管道中,大型语言模型(LLM)的对齐通常通过对序列分配标量奖励,并使用最终token作为整个序列质量的代理指标,这导致反馈信号稀疏且token级信用分配不佳。研究的起点是解决RL中奖励稀疏性问题,特别是RLHF应用中常见的挑战,例如中间状态缺乏细粒度反馈,可能会导致代理学习效率低下和不稳定。具体问题包括:奖励信号带宽低,无法有效评估中间token的质量;收集token级人类标注成本高且主观性强;现有奖励整形方法(如基于注意力机制)可能与token贡献不直接相关。因此,本文通过将奖励整形框架化为优化问题,旨在利用解释性方法生成密集奖励,以提供更细粒度的反馈。

Method

Experiment

Further Thoughts

这个方法巧妙地将解释性技术与Bayesian Optimization结合,展示了在RLHF中利用不确定性估计来优化奖励形状的潜力;未来可以探索将其扩展到多模态任务中,例如结合视觉或语音数据,以处理更复杂的序列决策问题;此外,考虑到解释性方法(如SHAP)的噪声敏感性,或许可以整合元学习框架来适应不同领域的数据分布,类似于一些工作(如AlphaPO)中对奖励函数形状的动态调整,从而进一步提升泛化能力和鲁棒性。



Previous Post
PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset
Next Post
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks