Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models?
本文通过RL和SFT训练不同规模LLMs,发现RL在较大模型中促进显式ToM推理但在小模型中导致推理崩溃,而SFT意外取得高性能,揭示当前ToM基准测试可能无需显式人类式推理即可解决。
-
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning
本文提出 R1-Code-Interpreter 框架,通过监督微调和强化学习训练大型语言模型动态生成和执行代码,在 144 个推理和规划任务上显著提升准确率,R1-CI-14B 达到 64.1%,接近 GPT-4o+Code Interpreter 的性能。
-
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability
本文提出 MASKSEARCH 框架,通过 Retrieval-Augmented Mask Prediction (RAMP) 预训练任务结合监督微调和强化学习,显著提升了大型语言模型在开放域多跳问答任务中的代理搜索能力。
-
Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs
本文提出动态采样预算分配和温度调度机制,通过基于问题难度的资源再分配和维持策略熵的探索能力,显著提升了大型语言模型在数学任务中的强化学习效率和性能,尤其在AIME 2024基准上pass@1和pass@16分别提高5.31%和3.33%。
-
Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs
本文揭示了强化学习中低概率token过度主导模型更新的问题,并提出Advantage Reweighting和Lopti两种方法,通过平衡token更新权重显著提升GRPO训练的大语言模型性能,最高在K&K Logic Puzzle任务上提升46.2%。