Tag: Reasoning
All the articles with the tag "Reasoning".
-
Learning Composable Chains-of-Thought
本文提出Composable Chain-of-Thought方法,通过数据增强改进原子任务CoT格式,并结合多任务学习或模型合并实现零样本组合推理,使用拒绝采样微调进一步提升性能,在字符串操作和自然语言任务上优于标准CoT基准。
-
One-shot Entropy Minimization
本文提出一-shot熵最小化(EM)方法,通过仅使用单个无标签数据和10步优化即可显著提升大型语言模型在数学推理任务上的性能,媲美或超越传统强化学习方法。
-
Parallel Scaling Law for Language Models
本文提出并行扩展(PARSCALE)方法,通过增加训练和推理时的并行计算流(P)来提升语言模型能力,理论和实验表明P流相当于参数扩展O(log P),并在低资源场景下展现出更高的推理效率。
-
ShiQ: Bringing back Bellman to LLMs
本文提出ShiQ算法,通过从Bellman一致性方程出发设计适应LLM特性的损失函数,支持离线、token级的强化学习微调,并在单轮和多轮任务中表现出优于DPO和CoPG的奖励优化能力。
-
Agentic AI: The Era of Semantic Decoding
本文提出语义解码视角,将大型语言模型、人类和工具的协作框架化为语义空间中的优化过程,通过语义令牌的交换和语义解码算法的设计探索AI系统的新计算范式。