Skip to content
Go back 2502.01941 arXiv logo

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

Published:  at  11:22 AM
86.44 🤔

本文通过KVFundaBench基准系统评估KV缓存压缩对大型语言模型基本能力的影响,揭示任务依赖性性能降解,并提出ShotKV方法,通过区分预填充和解码阶段压缩策略,在长上下文生成任务上显著提升性能。

Large Language Model, Efficiency, Long Context, Reasoning, Multimodality

Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu

The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology

Generated by grok-3

Background Problem

随着大型语言模型(LLM)处理长上下文能力的增强,推理过程中GPU内存需求显著增加,KV缓存压缩成为优化部署的关键策略。然而,现有研究主要关注长上下文基准(如LongBench)上的压缩效果,忽略了压缩对LLM基本能力(如世界知识、常识推理、算术推理、安全性等)的影响。论文旨在解决这一研究空白,探索KV缓存压缩如何影响模型的多样化基本能力,并提出更有效的压缩方法以减少性能损失。

Method

论文提出了两个核心贡献:

批判性思考:ShotKV的设计基于对语义完整性的重视,这在长上下文和复杂推理任务中确实有意义,但其计算注意力得分的额外开销可能在实际部署中成为瓶颈。此外,方法对预填充阶段的固定压缩可能在某些动态任务中不够灵活,是否适用于所有任务类型仍需验证。

Experiment

实验基于KVFundaBench,使用多个数据集(MMLU、GSM8K、CommonsenseQA、HumanEval、JailBreakV、LongGenBench)评估KV缓存压缩对不同任务的影响,测试了多种模型(如LLaMA-3.1-8B、Mistral-7B-Instruct)和压缩方法(如StreamingLLM、SnapKV、H2O)。

Further Thoughts

ShotKV的提出为KV缓存压缩提供了一个新思路,即通过阶段分离和语义完整性保留来优化性能,这可能启发其他领域中对模型推理效率的改进,例如在多模态模型中如何处理跨模态上下文的压缩。此外,论文中提到的注意力模式差异(算术推理任务注意力更分散)可能与模型对不同任务的依赖机制有关,未来可以结合神经科学中的注意力分配理论进一步探索LLM的任务特异性行为。另一个值得思考的方向是,是否可以通过自适应压缩比率(根据任务类型动态调整)来进一步提升性能,而不仅仅是固定比率下的优化?此外,与其他高效推理技术(如量化、剪枝)的结合可能是一个有趣的研究方向,但需要权衡性能与复杂性之间的关系。



Previous Post
When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator
Next Post
LIFEBench: Evaluating Length Instruction Following in Large Language Models