Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
本文提出StarPO框架和RAGEN系统,通过多轮轨迹级别强化学习训练LLM智能体,揭示了训练不稳定性(如Echo Trap)和推理能力不足的挑战,并通过StarPO-S改进稳定性和泛化性,但推理能力仍需细粒度奖励设计支持。
-
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models
本文通过MathIF基准测试评估大型推理模型在数学任务中的指令遵循能力,揭示了推理能力提升与指令遵循能力下降之间的权衡关系,并通过实验验证了训练策略和推理链长度对这一权衡的影响。
-
Steering LLM Reasoning Through Bias-Only Adaptation
本文通过训练转向向量(steering vectors)验证了大型语言模型中推理能力已潜藏的假设,在数学推理任务上以极高的参数效率接近甚至超过全模型微调的表现。
-
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
本文提出EMORL框架,通过集成学习分别训练单目标模型并在隐藏状态层聚合,结合分层网格搜索优化权重,在咨询反思生成任务中实现了与传统方法相当的性能,同时显著提升了训练效率、可扩展性和解释性。
-
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
本文提出了一种动态自适应的混合训练框架 SASR,通过基于梯度范数和 KL 散度的动态调整机制结合 SFT 和 RL,在数学推理和逻辑推理任务上显著提升了大语言模型的性能,优于传统 SFT、RL 和静态混合方法。