Tag: Reinforcement Learning

All the articles with the tag "Reinforcement Learning".

Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement

Published: 17 May, 2025 at 11:04 AM

88.64 🤔

This paper introduces Temperature Scaling (TS) and Trace Length Control for Dynamic Reasoning (TLDR) to enhance token efficiency in small language models, achieving up to 50% reduction in response length with minimal accuracy loss across multiple reasoning benchmarks.
Skywork Open Reasoner 1 Technical Report

Published: 3 Jun, 2025 at 11:44 AM

88.60 🤔

Skywork-OR1通过提出MAGIC框架，利用多阶段训练和自适应熵控制的强化学习方法，显著提升了长链式推理模型在数学和编码任务上的性能，并在AIME24和AIME25基准上超越了DeepSeek-R1和Qwen3-32B。
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One

Published: 24 May, 2025 at 11:07 AM

88.52 🤔

本文提出LLM-Ens框架，利用大型语言模型（LLMs）通过语义状态分类和动态代理选择增强强化学习模型集成，在Atari基准上显著提升性能，最高较基线方法提升51.2%。
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

Published: 3 Jun, 2025 at 11:45 AM

88.30 🤔

本文提出了一种通过强化学习（GRPO）优化大型语言模型自我反思能力的方法，在函数调用和数学方程任务上显著提升性能（平均9.0%和16.0%），并展示小模型在训练后可超越未训练大模型。
General-Reasoner: Advancing LLM Reasoning Across All Domains

Published: 30 May, 2025 at 11:21 AM

88.18 🤔

本文提出General-Reasoner，通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器，显著提升大型语言模型在多领域推理任务上的性能，同时保持数学推理的有效性。

Tag: Reinforcement Learning

Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement

Skywork Open Reasoner 1 Technical Report

Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

General-Reasoner: Advancing LLM Reasoning Across All Domains