Skip to content
Go back 2505.16838 arXiv logo

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

Published:  at  11:22 AM
86.90 🤔

R1-Compress通过块级压缩和块间搜索机制有效压缩长链式推理(Long-CoT),在减少约20% token使用量的同时保持了与基线接近的推理准确率(92.4% vs 93.0%)。

Large Language Model, Reasoning, Efficiency, Supervised Learning, Prompt Engineering

Yibo Wang, Li Shen, Huanjin Yao, Tiansheng Huang, Rui Liu, Naiqiang Tan, Jiaxing Huang, Kai Zhang, Dacheng Tao

Tsinghua University, Sun Yat-sen University, Didichuxing Co. Ltd, Nanyang Technological University

Generated by grok-3

Background Problem

长链式推理(Long-CoT)是大型语言模型(LLMs)在复杂推理任务(如数学问题求解)中通过逐步分解问题提升性能的重要技术。然而,Long-CoT 显著增加了token长度,导致推理速度变慢和KV缓存内存使用量激增,限制了其实际部署能力。现有压缩方法(如实例级和token级压缩)要么牺牲了关键的局部推理信号(如反思能力),要么生成不连贯的输出。因此,亟需一种既能减少计算开销又能保留推理质量的压缩方法。

Method

R1-Compress 提出了一种两阶段的块级压缩框架,旨在通过分块处理和搜索机制平衡效率与连贯性:

Experiment

实验基于Qwen2.5-Instruct系列模型(14B和32B)进行,数据集包括OpenR1-Math-220k(训练)和MATH500、AIME24、GPQA-Diamond(评估)。

Further Thoughts

R1-Compress 的块级压缩思路为高效推理提供了一个有趣的视角,但其搜索机制的计算开销和对固定分割策略的依赖可能限制其在动态任务中的应用。未来可以探索自适应的块分割方法,例如基于语义相似性或推理步骤重要性动态调整chunk大小。此外,结合潜在空间推理(latent space reasoning)或离线计算(如Sleep-time Compute)可能进一步减少在线推理负担。另一个值得思考的方向是,是否可以通过强化学习(如RLHF)直接优化压缩后的CoT质量,而不仅仅依赖概率搜索,以减少对额外候选生成的依赖。这也让我联想到,类似方法是否可以应用于多模态推理任务中,通过压缩视觉或文本推理步骤提升多模态系统的效率。



Previous Post
Purity Law for Generalizable Neural TSP Solvers
Next Post
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning