Tag: Reinforcement Learning

All the articles with the tag "Reinforcement Learning".

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

Published: 5 Jun, 2025 at 11:24 AM

87.16 🤔

本文通过将自然语言理解任务转化为强化学习问题，使用PPO算法微调中小规模LLMs，在GLUE和SuperGLUE基准上显著提升性能，超越监督微调和BERT-large，并展现出优于GPT-4o的零样本泛化能力。
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Published: 3 Jun, 2025 at 11:45 AM

91.52 🤔

本文提出ProRL方法，通过长时间强化学习结合KL散度惩罚和参考策略重置，在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型，显著扩展了大型语言模型的推理边界，尤其在基础模型表现较差的领域和分布外任务上表现出色。
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective

Published: 5 Jun, 2025 at 11:23 AM

85.08 🤔

本文提出'Trajectory Policy Gradient Theorem'，从理论上证明在LLM在线强化学习中仅用响应级别奖励即可无偏估计token级奖励的策略梯度，并基于此设计了TRePO算法，简化PPO设计并具备token级建模能力。
Skywork Open Reasoner 1 Technical Report

Published: 3 Jun, 2025 at 11:44 AM

88.60 🤔

Skywork-OR1通过提出MAGIC框架，利用多阶段训练和自适应熵控制的强化学习方法，显著提升了长链式推理模型在数学和编码任务上的性能，并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs

Published: 4 Jun, 2025 at 11:27 AM

86.33 🤔

RLAE提出了一种通过强化学习动态调整大型语言模型集成权重的框架，将集成过程建模为马尔可夫决策过程，在多个任务上实现最高3.3%的性能提升，并展现出跨任务泛化能力和计算效率。

Tag: Reinforcement Learning

Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective

Skywork Open Reasoner 1 Technical Report

RLAE: Reinforcement Learning-Assisted Ensemble for LLMs