Tag: Reasoning

All the articles with the tag "Reasoning".

Learning Composable Chains-of-Thought

Published: 30 May, 2025 at 11:12 AM

90.13 🤔

本文提出Composable Chain-of-Thought方法，通过数据增强改进原子任务CoT格式，并结合多任务学习或模型合并实现零样本组合推理，使用拒绝采样微调进一步提升性能，在字符串操作和自然语言任务上优于标准CoT基准。
One-shot Entropy Minimization

Published: 2 Jun, 2025 at 11:33 AM

89.83 🤔

本文提出一-shot熵最小化（EM）方法，通过仅使用单个无标签数据和10步优化即可显著提升大型语言模型在数学推理任务上的性能，媲美或超越传统强化学习方法。
Parallel Scaling Law for Language Models

Published: 21 May, 2025 at 11:28 AM

89.78 🤔

本文提出并行扩展（PARSCALE）方法，通过增加训练和推理时的并行计算流（P）来提升语言模型能力，理论和实验表明P流相当于参数扩展O(log P)，并在低资源场景下展现出更高的推理效率。
ShiQ: Bringing back Bellman to LLMs

Published: 20 May, 2025 at 11:23 AM

89.77 🤔

本文提出ShiQ算法，通过从Bellman一致性方程出发设计适应LLM特性的损失函数，支持离线、token级的强化学习微调，并在单轮和多轮任务中表现出优于DPO和CoPG的奖励优化能力。
Agentic AI: The Era of Semantic Decoding

Published: 8 May, 2025 at 12:27 AM

89.68 🤔

本文提出语义解码视角，将大型语言模型、人类和工具的协作框架化为语义空间中的优化过程，通过语义令牌的交换和语义解码算法的设计探索AI系统的新计算范式。

Tag: Reasoning

Learning Composable Chains-of-Thought

One-shot Entropy Minimization

Parallel Scaling Law for Language Models

ShiQ: Bringing back Bellman to LLMs

Agentic AI: The Era of Semantic Decoding