本文提出基于多样性的上下文学习(DICL)方法,通过最大边际相关性(MMR)算法重新排序示例以平衡相关性和多样性,在多个数据集和大型语言模型上实现了约70%的下游任务性能提升或维持。
In-Context Learning, Large Language Model, Representation Learning, Multimodal Data, Efficiency
Janak Kapuriya, Manit Kaushik, Debasis Ganguly, Sumit Bhatia
University of Galway, University of Glasgow, IIIT Delhi, Adobe Systems
Generated by grok-3
Background Problem
近年来,大型语言模型(LLM)通过上下文学习(ICL)展现了在少量标注示例下执行任务的强大能力。然而,传统的ICL方法主要依赖于基于稀疏或密集嵌入的相似性函数来选择与输入相关的示例,这种策略可能引入主题偏见,导致所选示例间缺乏多样性,从而影响下游任务的表现。本文旨在解决这一问题,提出通过提升所选示例的主题多样性来改善ICL的性能,特别是在检索任务中,探索多样性是否能为模型提供更丰富的上下文知识,进而提升预测准确性。
Method
本文提出了一种基于多样性的上下文学习(DICL)方法,核心在于平衡示例与输入的相关性及其多样性。具体步骤如下:
- 标准ICL基础:传统ICL通过相似性函数(稀疏如TF-IDF或密集如SBERT)选择与测试输入最相似的标注示例集合 。
- 候选示例池扩展:DICL首先检索一个比最终使用示例数更大的候选池 ,其中 (实验中 ),以确保有足够的选择空间。
- MMR重新排序:使用最大边际相关性(MMR)算法对候选池中的示例进行重新排序,MMR通过公式 平衡输入相关性()和示例间多样性(避免与已选示例过于相似),其中 是调节参数。
- 最终选择:通过MMR迭代选择 个示例,用于ICL推理。 该方法无需额外训练,仅在推理阶段调整示例选择策略,旨在通过多样性提升上下文的知识覆盖面。
Experiment
实验在四个数据集(RTE、COLA、SST2、TREC)上进行,涵盖文本蕴含、语法可接受性、情感分类和开放域问题分类任务,使用了三种不同规模和架构的LLM(Phi2-2.7B、Mistral-7B、LLaMA3-8B)。实验设置包括零样本(Zero-Shot)、标准ICL(基于TF-IDF和SBERT相似性)以及DICL(TF-IDF-MMR和SBERT-MMR)。通过网格搜索调整参数 (示例数量)和 (相关性与多样性权重),并在验证集上优化后在测试集上评估F1分数。结果显示:
- 有效性:DICL在24个实验设置中的17个(约70%)优于或等于标准ICL,尤其在RTE和COLA等任务上,SBERT-MMR表现较好,而在TREC上TF-IDF-MMR更有效。
- 任务差异:在SST2情感分类任务中,DICL改进有限,可能是因为情感线索已足够明显,额外多样性贡献不大。
- 参数敏感性:DICL性能对 和 敏感,通常 (偏向相关性)和 时效果更佳,表明多样性在较大示例集时更有意义。
- 模型规模影响:较大模型(如Mistral和LLaMA)随 增加性能提升后趋于平稳,而较小模型(如Phi2)对示例数量变化更敏感,部分任务在中值 时性能下降。
- 不足:实验结果波动较大,部分设置下DICL性能下降,且未探讨计算开销和参数调节的理论依据,实验设计虽覆盖多种模型和任务,但缺乏对多样性具体影响机制的深入分析。
Further Thoughts
尽管DICL提供了一个有趣的视角,即通过多样性提升ICL性能,但其实际应用价值仍需进一步探讨。例如,MMR算法在信息检索领域已被广泛研究,但在ICL场景下是否是最优的多样性策略尚不确定,是否可以引入更先进的聚类或生成式方法来动态构建多样性上下文?此外,论文未提及DICL在计算效率上的影响,尤其是在大规模数据集或实时应用中,MMR的迭代计算可能成为瓶颈,是否可以通过近似算法或预计算来优化?另一个值得思考的方向是多样性与任务类型的关联性,例如在需要高度专业知识的领域(如医学或法律)中,过分强调多样性是否可能引入噪声,反而降低性能?结合检索增强生成(RAG)任务(如作者未来计划),DICL是否能通过结合无标注上下文进一步提升性能,特别是在跨领域或多模态场景中?这些问题值得后续研究深入探索,同时也可以与其他领域的多样性研究(如推荐系统中的多样性优化)建立联系,以获得更广泛的理论支持。