Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

本文通过KVFundaBench基准系统评估KV缓存压缩对大型语言模型基本能力的影响，揭示任务依赖性性能降解，并提出ShotKV方法，通过区分预填充和解码阶段压缩策略，在长上下文生成任务上显著提升性能。

Large Language Model, Efficiency, Long Context, Reasoning, Multimodality

Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu

The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology

Generated by grok-3

Background Problem

随着大型语言模型（LLM）处理长上下文能力的增强，推理过程中GPU内存需求显著增加，KV缓存压缩成为优化部署的关键策略。然而，现有研究主要关注长上下文基准（如LongBench）上的压缩效果，忽略了压缩对LLM基本能力（如世界知识、常识推理、算术推理、安全性等）的影响。论文旨在解决这一研究空白，探索KV缓存压缩如何影响模型的多样化基本能力，并提出更有效的压缩方法以减少性能损失。

Method

论文提出了两个核心贡献：

KVFundaBench基准：这是一个综合性基准，涵盖世界知识、常识推理、算术推理、代码生成、安全性和长上下文生成等任务类别，用于系统评估KV缓存压缩对LLM基本能力的影响。通过分析注意力模式和性能变化，揭示任务依赖性降解等关键问题。
ShotKV方法：一种新型KV缓存压缩策略，核心思想是将预填充（prefill）和解码（decoding）阶段的压缩分开处理，以保留提示信息的语义完整性。具体步骤包括：
- 在预填充阶段，根据注意力权重计算每个shot（示例）的得分，优先保留高得分的完整shot，确保语义连贯性，压缩后的KV缓存固定不变。
- 在解码阶段，动态计算生成token的重要性得分，选择高得分token保留，适应生成过程的动态需求。
- 最终结合两阶段的压缩结果形成总KV缓存。

批判性思考：ShotKV的设计基于对语义完整性的重视，这在长上下文和复杂推理任务中确实有意义，但其计算注意力得分的额外开销可能在实际部署中成为瓶颈。此外，方法对预填充阶段的固定压缩可能在某些动态任务中不够灵活，是否适用于所有任务类型仍需验证。

Experiment

实验基于KVFundaBench，使用多个数据集（MMLU、GSM8K、CommonsenseQA、HumanEval、JailBreakV、LongGenBench）评估KV缓存压缩对不同任务的影响，测试了多种模型（如LLaMA-3.1-8B、Mistral-7B-Instruct）和压缩方法（如StreamingLLM、SnapKV、H2O）。

设置合理性：任务类别覆盖广泛，试图全面评估基本能力；注意力模式分析为性能降解提供了理论支持；多模型和多方法的对比增强了结果的可信度。
结果分析：实验揭示了任务依赖性降解（算术推理和长上下文生成任务性能下降明显，降幅1%-40%）、模型类型鲁棒性（多步推理模型更耐压缩）等关键观察。ShotKV在长上下文生成任务（如LG-GSM8K）上表现突出，压缩比40%时准确率达47.33%，超过完整KV缓存基准（46.00%），在压缩比25%-30%时性能下降较小（26.83%-38.33%），优于其他方法（6.33%-16.67%）。
批判性思考：虽然ShotKV在长上下文生成任务上改进显著，但对其他任务（如世界知识、常识推理）的提升未充分展示，可能存在适用性局限。此外，实验未详细讨论计算开销和延迟影响，实际应用价值存疑。数据集选择虽广，但部分任务样本量较小（如HumanEval仅164个），可能影响结果的统计显著性。

Further Thoughts

ShotKV的提出为KV缓存压缩提供了一个新思路，即通过阶段分离和语义完整性保留来优化性能，这可能启发其他领域中对模型推理效率的改进，例如在多模态模型中如何处理跨模态上下文的压缩。此外，论文中提到的注意力模式差异（算术推理任务注意力更分散）可能与模型对不同任务的依赖机制有关，未来可以结合神经科学中的注意力分配理论进一步探索LLM的任务特异性行为。另一个值得思考的方向是，是否可以通过自适应压缩比率（根据任务类型动态调整）来进一步提升性能，而不仅仅是固定比率下的优化？此外，与其他高效推理技术（如量化、剪枝）的结合可能是一个有趣的研究方向，但需要权衡性能与复杂性之间的关系。