Sentinel提出了一种轻量化的句子级别上下文压缩框架,通过探测0.5B代理模型的注意力信号实现高达5倍压缩率,并在LongBench基准上匹配7B规模系统的QA性能。
Large Language Model, RAG, Multimodality, Efficiency, Representation Learning
Yong Zhang, Yanwen Huang, Ning Cheng, Yang Guo, Yun Zhu, Yanmeng Wang, Shaojun Wang, Jing Xiao
Ping An Technology (Shenzhen) Co., Ltd., China, University of Electronic Science and Technology of China
Generated by grok-3
Background Problem
大型语言模型(LLMs)在知识密集型任务中通过检索增强生成(RAG)引入外部上下文以提升性能,但检索到的上下文往往冗长、噪声多或超出输入限制,导致效率和效果问题。现有压缩方法多依赖监督训练专用模型,成本高且移植性差。本文提出了一种轻量化的上下文压缩框架Sentinel,旨在解决高效、模型无关的上下文压缩问题,特别是在句子级别的语义保留和查询相关性识别上提供新思路。
Method
Sentinel是一个轻量化的句子级别上下文压缩框架,其核心思想是将压缩问题转化为基于注意力的理解任务,而非训练专用压缩模型。具体方法如下:
- 注意力特征提取:使用现成的0.5B规模代理模型(如Qwen-2.5-0.5B-Instruct),对查询-上下文对输入后,提取最终解码器token的多层注意力权重,计算每个句子的注意力特征向量。
- 探测分类器:通过一个简单的逻辑回归分类器,基于注意力特征预测句子的查询相关性得分,避免直接使用原始注意力阈值带来的噪声问题。
- 弱监督训练:利用QA数据集(如SQuAD、HotpotQA)构建训练数据,标注包含答案的句子为正样本,并通过上下文依赖性过滤和句子打乱增强鲁棒性。
- 推理阶段:根据分类器得分选择高相关性句子,满足token预算后传递给下游LLM。
关键问题与批评:虽然方法创新,但注意力特征的提取高度依赖解码器模型的内部行为,可能在不同架构间不一致。此外,弱监督标签的质量可能受限于数据集选择,缺乏对复杂多跳推理任务的充分优化。
Experiment
实验在LongBench基准数据集上进行,覆盖英文和中文任务,评估模型为GPT-3.5-Turbo和Qwen-2.5-7B-Instruct,设置2000 token输入限制。
- 结果:Sentinel使用0.5B代理模型实现了高达5倍的压缩率,在QA任务上接近或匹配7B规模系统(如CPC、LongLLMLingua)的性能,尤其在Single-Doc和Multi-Doc QA上甚至超越原始完整上下文的表现。
- 对比与分析:相比基线方法(如LLMLingua、Raw Attention),Sentinel在大多数任务上表现优越,尤其在低资源压缩比下保持稳定。但在Summarization、FewShot和Code任务上表现不及原始上下文,原因是句子分割破坏了全局结构和格式。
- 鲁棒性测试:通过代理模型规模(0.5B到3B)、chunk大小和压缩比的消融实验,验证了注意力相关性估计的跨规模稳定性,0.5B模型已足够高效。
- 实验设置合理性:实验覆盖多语言、多任务场景,设置了严格的token限制,较为全面。但对格式敏感任务的不足未深入解决,且评估模型种类有限(仅GPT和Qwen系列),可能存在架构偏见。
- 批评:实验结果虽令人印象深刻,但对某些任务的性能下降未提供改进方案,缺乏对跨架构通用性的验证,可能高估了方法的普适性。
Further Thoughts
Sentinel的注意力探测方法提供了一个有趣的视角,即模型的内部注意力信号可以作为上下文理解的代理指标,这可能启发其他领域的轻量化技术,例如在多模态任务中利用视觉或语音模型的注意力机制进行数据过滤。然而,论文未解决格式敏感任务中的性能下降问题,未来可以探索结合任务特定结构(如代码语法树或FewShot示例对齐)来改进压缩策略。此外,注意力信号的跨模型稳定性是否具有理论基础仍需进一步研究,如果能结合信息论或表示学习理论,可能为设计更鲁棒的压缩框架提供指导。另一个值得思考的方向是,是否可以将Sentinel的注意力探测与其他语义表示(如嵌入向量)结合,以应对复杂多跳推理任务中注意力信号的分布重叠问题,这可能进一步提升方法在多样化RAG场景中的适用性。