MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning

本文提出 MateICL 框架，通过分割上下文窗口并引入注意力校准层解决大型语言模型在大规模上下文学习中的注意力分散问题，实验证明其在多种 NLP 任务中有效提升性能并保持稳定性。

Large Language Model, In-Context Learning, Attention Mechanism, Context Extension, Efficiency, Multimodal Systems

Murtadha Ahmed, Wenbo, Liu yunfeng

Zhuiyi AI Lab, Shenzhen, China

Generated by grok-3

Background Problem

大型语言模型（LLMs）在上下文学习（ICL）中表现出色，但受限于预训练模型的固定上下文长度，演示示例数量有限。随着演示数量增加，注意力分散问题显现，查询 token 的注意力权重下降，影响模型性能。已有方法如检索增强和上下文扩展需要额外训练或资源，实用性受限。本文提出 MateICL 框架，旨在解决注意力分散问题，使 LLMs 在大规模 ICL 中维持有效自注意力，提升性能，尤其是在资源受限环境下。

Method

MateICL 的核心思想是通过分割上下文和校准注意力权重来缓解注意力分散问题。具体步骤如下：

上下文分割（Parallel Context Windows, PCW）：将大量演示示例分割为多个窗口，每个窗口填充至模型上下文容量上限（如 GPT-2 的 1024 token），并独立编码，限制窗口内 token 仅关注自身窗口内容，而查询 token（任务 token）需关注所有上下文 token。
注意力校准层（AtBias）：引入额外层以重新校准注意力权重，通过参数 $b$ 动态调整查询 token 的优先级，确保在演示数量增加时模型仍能聚焦查询内容。 $b$ 的值根据窗口数量 $W$ 确定，当 $W > 3$ 时， $b = \lfloor W/3 \rfloor + 2$ ，否则为 2。
理论依据：基于注意力机制分析，证明随着演示数量增加，查询 token 的注意力分数下降（通过公式 $\nu(\mathbf{x}_r)$ 量化），从而设计校准机制以平衡查询和上下文的影响。

Experiment

实验在多个 NLP 任务（文本分类、情感分析、阅读理解等）上验证了 MateICL 的有效性，数据集包括 SST-2、AGNews、SQuAD 等，覆盖多种任务类型。实验设置如下：

模型与基线：使用 GPT-2、LLaMA（7B、30B）等模型，与 VanillaICL、PCW、检索方法（如 BM25、SBERT）等基线对比。
上下文规模：测试不同窗口数量（ $W=1$ 到 $W=18$ ），每个窗口包含 $k$ 个演示示例，验证上下文扩展效果。
结果分析：MateICL 在大多数任务中优于 PCW 和 VanillaICL，尤其在 $W>3$ 时性能下降较少（如在 TREC 数据集上，MateICL 在 $W=9$ 时准确率为 51.7%，而 PCW 仅为 43.1%）。与检索方法相比，MateICL 无需外部训练即可取得竞争力结果（如在 ARC Easy 上达到 75.8% 准确率，优于 LLM-R 的 63.5%）。
合理性与局限：实验设计全面，涵盖多种模型和任务，但对多选任务改进有限，可能是任务特性导致；此外，参数 $b$ 的选择依赖贪婪搜索，缺乏理论支持；在资源受限环境下，MateICL 显著优于 InfICL（如在 Longchat-7B 上提升高达 11.2%）。总体而言，实验结果基本符合预期，但未充分探讨方法在序列相关任务上的失效场景。

Further Thoughts

MateICL 的方法在资源受限环境下的应用潜力值得进一步探索，尤其是在边缘设备上部署 LLMs 时，其分割上下文的策略可能显著降低内存需求。然而，论文未讨论方法在处理动态上下文或交互式任务（如对话系统）中的表现，这可能是未来研究的一个方向。此外，MateICL 的注意力校准机制与最近的一些工作（如 Transformer 架构中的稀疏注意力机制）有潜在联系，可以探索是否能结合稀疏注意力进一步优化计算效率。另一个有趣的点是，MateICL 的参数 $b$ 调整策略可能从强化学习或自适应优化方法中受益，而不仅仅依赖贪婪搜索，这或许能提升其在不同任务上的泛化能力。最后，考虑到 ICL 的发展方向，MateICL 可能与检索增强生成（RAG）框架结合，通过动态选择高质量演示示例进一步提升性能。