Skip to content
Go back 2502.11147 arXiv logo

RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning

Published:  at  11:26 AM
87.36 🤔

本文提出 RaaS 算法,通过识别推理任务中的里程碑令牌并采用 LRU 缓存策略管理 KV 向量,在保持高准确性的同时实现了 O(L) 的时间和内存复杂度,显著优于现有方法如 Quest 的内存效率。

Large Language Model, Reasoning, Efficiency, Transformer, Multimodal Systems

Junhao Hu, Wenrui Huang, Weidong Wang, Zhenwen Li, Tiancheng Hu, Zhixia Liu, Xusheng Chen, Tao Xie, Yizhou Shan

北京大学计算机科学学院, 教育部高性能计算与系统结构重点实验室(北京大学), 南京大学计算机科学学院, 华为云

Generated by grok-3

Background Problem

大型语言模型(LLMs)在推理任务(如数学和编程)中表现出色,但长序列解码阶段的生成过程带来了高计算成本,表现为每生成一个令牌的时间和内存复杂度为 O(N)(N 为当前序列长度),导致总时间复杂度为 O(N²)。现有基于稀疏性的算法(如 H2O、StreamingLLM 和 Quest)试图通过仅保留关键令牌的 KV 向量来降低复杂度,但面临准确性、时间和内存的“不可能三角”问题,例如 Quest 实现了高准确性和 O(L) 时间复杂度,但内存复杂度仍为 O(N)。本文旨在通过识别推理任务解码阶段的新注意力模式,提出一种新算法 RaaS,以在保持高准确性的同时实现 O(L) 的时间和内存复杂度。

Method

RaaS(Reasoning-Aware Attention Sparsity)算法基于推理任务解码阶段的两种注意力模式设计:

批判性思考:虽然 RaaS 在理论上实现了 O(L) 复杂度,但其对预填充令牌的全部保留策略可能在长预填充场景下导致缓存预算不足,影响解码令牌的保留和准确性。此外,页面级代表性注意力分数的计算可能引入偏差,未必能准确反映令牌的重要性,作者未深入探讨这一潜在问题。

Experiment

实验在三个数学推理数据集(GMS8K、MATH500、AIME)上对四个推理能力强的模型(Marco-o1、Qwen2.5-Math-7B-Instruct、Mistral-Math-7B、DeepScaleR-1.5B)进行评估,比较 RaaS 与 Dense、H2O、StreamingLLM 和 Quest 的性能:

批判性思考:实验结果虽显示 RaaS 在内存效率上的优势,但其对预填充令牌的处理策略在特定场景下(如长预填充)明显不足,作者虽提出结合 Quest 和 RaaS 的建议,但未提供具体实现或验证,显得不够深入。

Further Thoughts

RaaS 的核心创新在于基于注意力模式的动态 KV 缓存管理,这一思想是否可以扩展到其他领域,如长上下文理解或多模态推理任务?例如,在多模态系统中,视觉和文本令牌的注意力模式可能呈现不同的“里程碑”特性,是否可以通过类似策略优化内存使用?此外,作者提到的注意力模式自动化分析工具是一个值得关注的方向,若能实现跨模型、跨任务的注意力模式统计分析,可能为设计更通用、更高效的缓存管理算法提供数据支持。

另一个思考点是 RaaS 对预填充令牌的全部保留策略在长预填充场景下的局限性。是否可以引入一种自适应机制,根据预填充和解码令牌的比例动态调整缓存分配?或者结合其他压缩技术(如 KV 量化)进一步优化内存使用?这些方向可能为 RaaS 的适用性扩展提供新的可能性,同时也需要更多实验验证其在不同任务和模型上的表现。



Previous Post
Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective
Next Post
Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective