Skip to content
Go back 2506.02678 arXiv logo

TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Published:  at  11:22 AM
92.10 🤔

本文提出TLDR方法,通过动态再加权系统1和系统2推理数据,显著压缩大型语言模型的推理输出token数量(约40%),同时在多难度数学任务上基本保持准确性。

Large Language Model, Reasoning, Efficiency, Data Augmentation, Fine-tuning

Zhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

中国科学院人工智能学院, 中国科学院自动化研究所, 加州大学洛杉矶分校, 清华大学, 微软, 香港科技大学, 香港科技大学(广州)

Generated by grok-3

Background Problem

大型语言模型(LLMs)通过强化学习和扩展的思维链(Chain-of-Thought, CoT)技术在推理任务上取得了显著进展。然而,系统2推理范式下,模型即使面对简单问题也倾向于过度思考,导致输出冗长,推理效率低下,限制了其在边缘设备或实时应用中的实用性。本文旨在解决这一问题,通过提出一种动态数据再加权方法(TLDR),在保持推理准确性的同时显著压缩输出token数量,消除冗余的认知过程。

Method

论文提出了一种名为TLDR(Thinking Length Data Re-Weighting)的动态再加权方法,核心思想是通过动态调整系统1(简洁推理,Short CoT)和系统2(详细推理,Long CoT)数据的训练比例,优化模型的推理效率和准确性。具体步骤如下:

批判性思考:该方法虽然避免了复杂的数据标注和模型插值,但动态再加权的算法依赖于超参数(如步长 η\eta 和平滑参数 cc),论文未充分讨论这些参数的敏感性及其对结果的影响。此外,效益评估依赖于验证集表现,可能在不同数据集或任务上存在过拟合风险,缺乏对泛化性的深入分析。

Experiment

实验基于DeepSeek-R1-Distill-7B和14B模型,在多个难度级别的数据集上进行评估,包括ASDiv、GSM8K、MATH500、AIME和AMC等,涵盖从简单到复杂的数学推理任务。评估指标包括准确性和生成长度(token数量),通过多次采样取平均值以减少方差。实验设置对比了三种基线方法:基于提示的(如TALE-EP)、基于模型融合的(如Task-Arithmetic-Merging)和基于奖励的(如ThinkPrune)。

结果:TLDR方法在7B和14B模型上均实现了显著的token压缩率(分别为44.9%和35.8%),特别是在简单问题(如GSM8K)上效果尤为明显,同时在大多数数据集上保持了与原始模型相近的准确性(例如,7B模型在GSM8K上准确性仅下降1.7%,在AMC上提升1.6%)。与静态数据混合方法相比,动态再加权表现出更好的性能平衡。消融实验进一步验证了使用低难度问题构建Short CoT和高难度问题构建Long CoT的重要性。

批判性分析:实验设计较为全面,覆盖了不同难度级别的数据集和多种基线方法,但存在以下问题:1)准确性在复杂问题(如AIME)上仍有轻微下降,表明方法在高难度任务上的局限性;2)实验仅限于数学推理任务,未验证方法在其他领域(如语言理解或多模态推理)上的有效性;3)token压缩率的计算方式可能存在偏差,未考虑推理质量的细粒度影响(如是否丢失关键推理步骤)。此外,实验未提供计算开销的详细分析,动态再加权可能增加训练时间,需进一步探讨其实用性。

Further Thoughts

TLDR方法通过动态数据再加权实现推理压缩的思路具有一定创新性,但其局限性在于对复杂任务准确性的轻微牺牲和对数学推理任务的过度聚焦。进一步思考,这种动态再加权策略是否可以与其他效率优化技术结合,例如模型剪枝或知识蒸馏,以在不牺牲性能的前提下进一步降低推理成本?此外,论文未探讨方法在非数学推理任务(如常识推理或多模态任务)上的表现,未来可以扩展实验范围,验证其泛化能力。另一个有趣的方向是将动态再加权应用于推理过程中的token预算分配,通过实时调整推理深度来适应不同问题复杂度,这可能与自适应推理系统(如Routellm)结合,探索更灵活的推理框架。最后,动态再加权对验证集的依赖可能引入过拟合风险,是否可以通过在线学习或元学习方法减少这种依赖,值得进一步研究。



Next Post
Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning