Tag: Reasoning

All the articles with the tag "Reasoning".

Interleaved Reasoning for Large Language Models via Reinforcement Learning

Published: 31 May, 2025 at 11:21 AM

85.73 🤔

本文提出了一种交错推理范式，通过强化学习训练大型语言模型交替思考和回答，显著降低时间到首token（TTFT）超过80%，并在多个推理任务上提升准确率最高达19.3%。
Structured Agent Distillation for Large Language Model

Published: 28 May, 2025 at 11:23 AM

85.73 🤔

本文提出结构化代理蒸馏框架，通过分割大型语言模型代理轨迹为推理和行动片段并施加分段特定监督，在压缩模型时显著提升任务成功率、推理效率和一致性，优于token级基线。
SSR: Speculative Parallel Scaling Reasoning in Test-time

Published: 23 May, 2025 at 11:09 AM

85.72 🤔

本文提出SSR框架，通过选择性并行模块和步骤级推测性解码，在测试时显著提升大型语言模型在数学推理任务中的效率-准确性权衡，无需额外训练。
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

Published: 24 May, 2025 at 11:08 AM

85.70 🤔

本文通过熵最小化提出三种无监督方法（EM-FT, EM-RL, EM-INF），显著提升了大型语言模型在数学、物理和编码推理任务上的表现，无需标注数据且在某些情况下超越了传统监督方法和前沿模型。
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

Published: 7 May, 2025 at 08:42 AM

85.65 🤔

本文综述了DeepSeek-R1发布后100天内推理语言模型的复制研究，系统总结了监督微调和基于可验证奖励的强化学习方法在数据构建和算法设计上的进展，并探讨了推理能力提升的多方向应用。

Tag: Reasoning

Interleaved Reasoning for Large Language Models via Reinforcement Learning

Structured Agent Distillation for Large Language Model

SSR: Speculative Parallel Scaling Reasoning in Test-time

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models