Tag: Reasoning
All the articles with the tag "Reasoning".
-
Concise Reasoning via Reinforcement Learning
本文提出了一种两阶段强化学习训练策略,通过在极小数据集上分阶段优化推理能力和简洁性,显著减少大型语言模型的响应长度(最高54%),同时保持甚至提升准确性,并增强低采样强度下的鲁棒性。
-
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective
本文提出'Trajectory Policy Gradient Theorem',从理论上证明在LLM在线强化学习中仅用响应级别奖励即可无偏估计token级奖励的策略梯度,并基于此设计了TRePO算法,简化PPO设计并具备token级建模能力。
-
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
本文发现,通过对大型语言模型应用带有可验证奖励的强化学习,仅使用一个训练示例即可显著提升其数学推理能力,效果可媲美使用数千示例进行训练,并揭示了饱和后泛化、跨领域泛化等现象,强调了策略梯度和探索的重要性。
-
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
本文提出PNLC方法,通过离线RL训练轻量级目标条件值函数辅助大型语言模型在多轮交互任务中进行高效长程规划,在性能和计算效率上显著优于现有RL微调和推理时搜索方法。
-
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models
本文通过LLM-Coordination基准测试框架,评估大型语言模型在纯协调游戏中的多智能体协调能力,发现其在环境依赖任务中表现优异但在心智理论推理和联合规划中存在显著不足,同时展现出对未见伙伴的零样本适应性。