本文提出 AutoL2S 框架,通过标注长短推理路径和
标记训练 LLMs,使其根据问题复杂性动态选择推理长度,实验显示推理长度压缩高达57%,性能基本保持。
Large Language Model, Reasoning, Efficiency, Supervised Learning, Data Augmentation
Feng Luo, Yu-Neng Chuang, Guanchu Wang, Hoang Anh Duy Le, Shaochen Zhong, Hongyi Liu, Jiayi Yuan, Yang Sui, Vladimir Braverman, Vipin Chaudhary, Xia Hu
Rice University, University of North Carolina at Charlotte, Johns Hopkins University, Case Western Reserve University
Generated by grok-3
Background Problem
大型语言模型(LLMs)在复杂推理任务中表现出色,但常因过思考问题(Overthinking)而生成冗长的链式推理(CoT)路径,尤其是在处理简单问题时,导致推理成本和延迟显著增加。现有方法如知识蒸馏或手动选择长短推理路径,未能根据问题复杂性动态调整推理长度,缺乏灵活性。本文提出 AutoL2S 框架,旨在解决这一问题,通过让模型自主决定推理路径长度,实现高效推理,同时保持性能。
Method
AutoL2S 是一种动态且与模型无关的框架,旨在让 LLMs 根据问题复杂性自动选择长或短推理路径。其核心思想和实现步骤如下:
- 数据构建与标注:使用 Bespoke-Stratos-17k 数据集,分别通过 DeepSeek-R1 生成长 CoT 推理路径,通过 Qwen2.5-Math-7B 结合拒绝采样生成短 CoT 推理路径。对于可通过短路径解决的简单问题(定义为 EASY 问题),标注数据同时包含长短两种路径,并引入
标记指示短路径适用;复杂问题仅保留长路径。 - 训练阶段:基于标注数据,使用常规困惑度损失函数对非推理基础模型(如 Qwen2.5-3B/7B-Instruct)进行监督微调,使模型学习长短推理模式及 EASY 问题的识别。
- 推理阶段:模型根据输入问题首先生成
标记或 ,决定采用短或长推理路径;若生成 ,则替换为 引导短路径生成。
关键问题与批评:数据构建中对 EASY 问题的定义和拒绝采样的应用可能引入主观性,缺乏明确标准;同时,训练数据中长短路径的并存可能导致模型在推理时混淆,尤其是在边界复杂性问题上。此外,
Experiment
实验在 Bespoke-Stratos-17k 数据集上训练 AutoL2S,并在四个推理数据集(Math500, GPQA, GSM8K, Olympiad)上评估,基于两个非推理基础模型(Qwen2.5-3B/7B-Instruct)。
- 设置与指标:评估指标包括推理准确率(Accuracy)和生成令牌长度(Length),目标是保持性能的同时减少推理长度。实验对比了三种基线方法(R1-Distilled, O1-pruner, CoT-Valve),并测试了不同拒绝采样次数(rj=0,4,8)的影响。
- 结果:AutoL2S 在推理长度上显著优于基线,最高压缩57%(如 Qwen2.5-7B-Instruct 在 GSM8K 上从1321降至488令牌),平均准确率与最强基线(Bespoke-Stratos)接近,但在某些数据集(如 GPQA)上准确率下降明显(例如 Qwen2.5-3B-Instruct 从0.308降至0.253)。增加拒绝采样次数进一步压缩长度,但准确率略有下降。
- 分析与批评:实验设置较为全面,涵盖多个数据集和模型规模,但结果显示长度压缩与准确率之间存在权衡,特别是在复杂数据集上性能下降,表明模型可能在压缩时丢失关键推理步骤。此外,实验未探讨
标记在不同领域或未见过问题上的泛化性,限制了方法的普适性结论。数据集选择偏向数学推理,可能未充分代表其他推理任务的复杂性。
Further Thoughts
AutoL2S 的方法在提高推理效率方面展现了潜力,但其依赖于预定义的