AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models

本文提出 AutoL2S 框架，通过标注长短推理路径和标记训练 LLMs，使其根据问题复杂性动态选择推理长度，实验显示推理长度压缩高达57%，性能基本保持。

Large Language Model, Reasoning, Efficiency, Supervised Learning, Data Augmentation

Feng Luo, Yu-Neng Chuang, Guanchu Wang, Hoang Anh Duy Le, Shaochen Zhong, Hongyi Liu, Jiayi Yuan, Yang Sui, Vladimir Braverman, Vipin Chaudhary, Xia Hu

Rice University, University of North Carolina at Charlotte, Johns Hopkins University, Case Western Reserve University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在复杂推理任务中表现出色，但常因过思考问题（Overthinking）而生成冗长的链式推理（CoT）路径，尤其是在处理简单问题时，导致推理成本和延迟显著增加。现有方法如知识蒸馏或手动选择长短推理路径，未能根据问题复杂性动态调整推理长度，缺乏灵活性。本文提出 AutoL2S 框架，旨在解决这一问题，通过让模型自主决定推理路径长度，实现高效推理，同时保持性能。

Method

AutoL2S 是一种动态且与模型无关的框架，旨在让 LLMs 根据问题复杂性自动选择长或短推理路径。其核心思想和实现步骤如下：

数据构建与标注：使用 Bespoke-Stratos-17k 数据集，分别通过 DeepSeek-R1 生成长 CoT 推理路径，通过 Qwen2.5-Math-7B 结合拒绝采样生成短 CoT 推理路径。对于可通过短路径解决的简单问题（定义为 EASY 问题），标注数据同时包含长短两种路径，并引入标记指示短路径适用；复杂问题仅保留长路径。
训练阶段：基于标注数据，使用常规困惑度损失函数对非推理基础模型（如 Qwen2.5-3B/7B-Instruct）进行监督微调，使模型学习长短推理模式及 EASY 问题的识别。
推理阶段：模型根据输入问题首先生成标记或，决定采用短或长推理路径；若生成，则替换为引导短路径生成。

关键问题与批评：数据构建中对 EASY 问题的定义和拒绝采样的应用可能引入主观性，缺乏明确标准；同时，训练数据中长短路径的并存可能导致模型在推理时混淆，尤其是在边界复杂性问题上。此外，标记的引入虽然创新，但其泛化能力未被充分验证，可能在未见过的问题类型上失效。

Experiment

实验在 Bespoke-Stratos-17k 数据集上训练 AutoL2S，并在四个推理数据集（Math500, GPQA, GSM8K, Olympiad）上评估，基于两个非推理基础模型（Qwen2.5-3B/7B-Instruct）。

设置与指标：评估指标包括推理准确率（Accuracy）和生成令牌长度（Length），目标是保持性能的同时减少推理长度。实验对比了三种基线方法（R1-Distilled, O1-pruner, CoT-Valve），并测试了不同拒绝采样次数（rj=0,4,8）的影响。
结果：AutoL2S 在推理长度上显著优于基线，最高压缩57%（如 Qwen2.5-7B-Instruct 在 GSM8K 上从1321降至488令牌），平均准确率与最强基线（Bespoke-Stratos）接近，但在某些数据集（如 GPQA）上准确率下降明显（例如 Qwen2.5-3B-Instruct 从0.308降至0.253）。增加拒绝采样次数进一步压缩长度，但准确率略有下降。
分析与批评：实验设置较为全面，涵盖多个数据集和模型规模，但结果显示长度压缩与准确率之间存在权衡，特别是在复杂数据集上性能下降，表明模型可能在压缩时丢失关键推理步骤。此外，实验未探讨标记在不同领域或未见过问题上的泛化性，限制了方法的普适性结论。数据集选择偏向数学推理，可能未充分代表其他推理任务的复杂性。

Further Thoughts

AutoL2S 的方法在提高推理效率方面展现了潜力，但其依赖于预定义的标记和特定数据集的标注策略，可能限制其在更广泛场景中的应用。进一步思考，是否可以通过在线学习或元学习动态调整标记的判定标准，使模型自适应地处理不同领域的问题？此外，结合其他效率优化技术（如模型剪枝或量化）可能进一步提升 AutoL2S 的实用性。另一个值得探索的方向是与多模态推理任务的结合，测试其在处理文本以外的数据（如图像或表格）时的表现，这可能揭示框架在跨领域推理中的局限性或潜力。与此同时，论文中提到的长短推理路径的注意力分离机制（Attention Map 分析）提示我们，是否可以通过设计更精细的注意力机制来增强模型对推理路径长度的控制？这些方向值得后续研究深入探讨。