Tag: Policy Training

All the articles with the tag "Policy Training".

Learning Explainable Dense Reward Shapes via Bayesian Optimization

Published: 4 May, 2025 at 04:30 PM

55.26 🤔

本文提出一种通过Bayesian Optimization学习解释性密集奖励形状的方法，以解决RLHF中奖励稀疏问题，实现token级信用分配优化，提升训练效率和性能，同时保持最优政策不变。