Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs
RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架,将集成过程建模为马尔可夫决策过程,在多个任务上实现最高3.3%的性能提升,并展现出跨任务泛化能力和计算效率。
-
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games
本文提出Divide-Fuse-Conquer框架,通过分组训练、参数融合和持续优化提升大型语言模型在多场景游戏中的泛化能力,实验在TextArena的18个游戏中显示Qwen2.5-32B-Align性能接近Claude3.5,但复杂场景表现仍有限。
-
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
本文提出元策略优化(MPO)框架,通过元奖励模型动态调整奖励模型的评估提示,显著提升了大语言模型在多种任务中的对齐性能,同时减少了奖励漏洞和手动提示工程的负担。
-
Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data?
本文提出并验证了'浅层偏好信号'现象,通过截断偏好数据集(保留前40%-50% token)训练奖励模型和DPO模型,性能与完整数据集相当甚至更优,并揭示了当前对齐方法过于关注早期token的局限性。
-
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
本文通过提出基于强化学习的LASER系列方法(LASER, LASER-D, LASER-DE),利用动态和难度感知的长度奖励塑造,在保持大型推理模型性能的同时显著提高token效率,在多个数学推理基准上实现了Pareto最优的准确率和效率权衡。