Tag: Hybrid Reasoning
All the articles with the tag "Hybrid Reasoning".
-
Thinkless: LLM Learns When to Think
本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。
All the articles with the tag "Hybrid Reasoning".
本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。