Tag: Reasoning
All the articles with the tag "Reasoning".
-
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
本文发现,通过对大型语言模型应用带有可验证奖励的强化学习,仅使用一个训练示例即可显著提升其数学推理能力,效果可媲美使用数千示例进行训练,并揭示了饱和后泛化、跨领域泛化等现象,强调了策略梯度和探索的重要性。
-
LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models
本文通过LLM-Coordination基准测试框架,评估大型语言模型在纯协调游戏中的多智能体协调能力,发现其在环境依赖任务中表现优异但在心智理论推理和联合规划中存在显著不足,同时展现出对未见伙伴的零样本适应性。
-
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization
本文通过控制实验、内部机制分析和理论推导,揭示了显式思维链(CoT)训练通过形成二阶段泛化电路显著提升大型语言模型的分布内(ID)和分布外(OOD)推理泛化能力,并验证了其在噪声数据下的鲁棒性。
-
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking
本文提出InteRank方法,通过知识蒸馏和强化学习训练一个3B参数小型语言模型,在推理密集型文档重排序任务中生成解释并实现与70B+参数模型相当的性能,在BRIGHT基准上位列第三。
-
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
本文提出R1-Reward,通过StableReinforce算法将强化学习应用于多模态奖励模型训练,显著提升了性能并在多个基准测试中超越现有最优模型,同时展示了优异的数据效率和测试时扩展性。