Skip to content
Go back 2505.13379 arXiv logo

Thinkless: LLM Learns When to Think

Published:  at  11:09 AM
85.36 🤔

本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。

Reinforcement Learning, Large Language Model, Reasoning, Efficiency, Hybrid Reasoning

Gongfan Fang, Xinyin Ma, Xinchao Wang

National University of Singapore

Generated by grok-3

Background Problem

大型语言模型(LLM)在复杂推理任务中通过链式思维(Chain-of-Thought)展现了强大能力,但对所有问题统一采用详细推理会导致计算资源浪费,尤其是在简单问题上冗余生成大量token,增加计算成本和延迟。因此,一个关键问题是:LLM能否根据任务复杂度和自身能力自主学习何时进行深入推理?本文提出了一种混合推理框架,旨在解决这一问题,通过让模型动态选择短格式或长格式推理来提升效率。

Method

本文提出了Thinkless框架,通过强化学习让LLM自主选择推理模式,具体分为两个阶段:

Experiment

实验基于DeepSeek-R1-Distill-Qwen-1.5B模型,使用数学数据集(如AIME、Minerva Algebra、MATH-500、GSM8K)进行评估,分为预热和强化学习两个阶段训练。实验设置包括:预热阶段使用配对数据集进行SFT,强化学习阶段采用DeepScaleR数据集(约40K样本)优化模式选择策略。结果显示:

Further Thoughts

Thinkless框架提供了一个有趣的视角,即通过强化学习让模型自主决定推理深度,这在资源受限的场景(如边缘设备上的推理)中具有潜在应用价值。然而,我认为其方法可能过于依赖数学任务的特性,未充分考虑其他领域的复杂性,例如在自然语言理解或多模态任务中,任务复杂度的评估和推理模式的切换可能需要更复杂的奖励设计和上下文感知机制。此外,与其他研究(如自适应计算时间或动态层级推理)结合,或许能进一步提升模型在不同任务上的效率和性能。另一个值得探讨的方向是,如何在强化学习中引入用户反馈作为奖励信号,以更好地平衡效率和用户满意度,而不仅仅依赖预定义的正确性指标。这可能需要与人机交互领域的研究相结合,探索更贴近实际应用场景的混合推理策略。



Previous Post
Recite, Reconstruct, Recollect: Memorization in LMs as a Multifaceted Phenomenon
Next Post
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning