Tag: Reasoning
All the articles with the tag "Reasoning".
-
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
-
Thinkless: LLM Learns When to Think
本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。
-
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
SATURN提出一个基于SAT问题的强化学习框架,通过课程学习和可控难度的SAT任务显著提升大型语言模型在SAT、数学和编程任务上的推理能力。
-
ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy
ThinkLess 提出了一种无需训练的推理效率提升框架,通过注意力分析揭示 CoT 推理冗余并早期终止生成,结合轻量级输出调节机制,在保持准确率的同时显著降低 token 使用量和推理时间。
-
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
HAPO 通过历史感知的策略优化训练语言模型,利用动态长度奖励机制显著减少推理输出长度(33-59%),同时仅以 2-5% 的准确率下降为代价,优于现有方法。