Tag: Reasoning

All the articles with the tag "Reasoning".

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

Published: 1 Jun, 2025 at 11:52 AM

85.32 🤔

INFTYTHINK通过将长上下文推理分解为迭代短推理片段并结合中间总结，突破了大型语言模型的上下文长度限制，在多个基准上显著提升性能，同时降低了计算成本。
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

Published: 28 May, 2025 at 11:20 AM

85.32 🤔

本文提出了一种自适应深度推理方法，通过监督微调和强化学习使大型语言模型根据问题复杂性自动切换长链和短链推理模式，并在数学任务上展示了有效性和效率提升。
Latent Principle Discovery for Language Model Self-Improvement

Published: 26 May, 2025 at 11:25 AM

85.30 🤔

本文提出STaPLe算法，通过Monte Carlo EM方法自动化发现和学习语言模型自我改进的潜在原则，在多个指令跟随基准上显著提升小型模型性能，同时通过聚类生成人类可解释的宪法。
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

Published: 3 Jun, 2025 at 11:43 AM

85.27 🤔

本文提出*Avengers*框架，通过无训练的嵌入、聚类、评分和投票操作，整合多个小型开源语言模型的集体智能，在15个多样化数据集上平均性能超越GPT-4.1，展现了开源模型挑战专有巨头的潜力。
RM-R1: Reward Modeling as Reasoning

Published: 7 May, 2025 at 12:11 AM

85.26 🤔

本文提出RM-R1，一种通过将奖励建模转化为推理任务并结合蒸馏和强化学习训练的推理奖励模型（REASRMS），在多个基准测试上取得了最先进性能，同时显著提升了可解释性。

Tag: Reasoning

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

Adaptive Deep Reasoning: Triggering Deep Thinking When Needed

Latent Principle Discovery for Language Model Self-Improvement

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

RM-R1: Reward Modeling as Reasoning