本文提出MOOSComp方法,通过在训练中添加inter-class cosine similarity loss缓解over-smoothing问题,并在压缩中整合outlier分数保留关键token,显著提升了任务无关的长上下文压缩性能和泛化能力。
Long Context, Efficiency, Representation Learning, Classification, Multimodal Data, Robustness
Fengwei Zhou, Jiafei Song, Wenjin Jason Li, Gengjian Xue, Zhikang Zhao, Yichao Lu, Bailin Na
OPPO CTG
Generated by grok-3-mini-latest
Background Problem
大型语言模型(LLMs)在处理长上下文输入时性能显著提升,但面临推理时间延长和资源消耗增加的挑战,尤其在资源受限的环境中,如边缘设备上。现有长上下文压缩方法存在过平滑(over-smoothing)问题,导致BERT-based模型的token表示相似性过高,影响token分类准确性;同时,任务无关压缩方法可能丢弃稀有但关键的token,降低泛化能力。本工作旨在通过改进任务无关的硬提示压缩方法来解决这些问题,提高压缩效率和效果。
Method
核心思想是通过缓解over-smoothing问题和整合outlier分数来提升BERT-based长上下文压缩器的性能。实现方式包括:训练阶段添加inter-class cosine similarity loss来惩罚token表示之间的过高相似度,从而提高token分类准确性;压缩阶段引入outlier分数(基于Z-score计算),与分类器输出概率结合,以保留稀有但重要的token。主要步骤:在训练时优化损失函数,其中是inter-class cosine similarity loss,公式为;在压缩时计算标准化outlier分数并整合到压缩指标中,公式为。
Experiment
实验使用数据集包括MeetingBank(in-domain总结任务)、LongBench(长上下文理解)、GSM8K(数学推理)和BBH(语言推理),目标模型涵盖黑箱API模型(如GPT-3.5-Turbo、GPT-4o-mini)和本地模型(如Qwen2.5-7B-Instruct、Qwen2.5-3B-Instruct)。实验设置旨在验证方法的有效性、泛化能力和加速效果:in-domain实验评估压缩后在相同任务上的性能,out-of-domain实验测试不同任务和模型的鲁棒性;结果显示MOOSComp在各种压缩比下均显著优于基线方法,如在LongBench上准确率提升10%以上,同时在资源受限设备上实现最高3.3倍加速;剔除实验确认了inter-class cosine similarity loss和outlier检测机制的贡献。实验设计合理全面,匹配预期,证明了方法的改进明显。
Further Thoughts
本方法通过针对性优化损失函数和引入outlier检测,展示了在提升模型泛化性方面的潜力,未来可探索将其扩展到其他transformer-based模型或多模态数据压缩中;over-smoothing问题在各种深度学习任务中普遍存在,或许能与其他反over-smoothing技术(如contrastive normalization)结合;outlier检测机制可进一步动态调整以适应实时任务变化,或与其他压缩策略(如soft prompt方法)融合,以实现更高效的LLM部署。