Skip to content
Go back 2501.04070 arXiv logo

More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives

Published:  at  01:15 PM
87.51 🤔

本文提出DrICL方法,通过差异化学习和基于优势的重新加权优化大型语言模型在many-shot上下文学习中的性能,并在自建的ICL-50数据集上验证了其在多种任务中的稳定性和有效性。

Large Language Model, In-Context Learning, Instruction Tuning, Data Augmentation, Multimodal Data

Xiaoqing Zhang, Ang Lv, Yuhan Liu, Flood Sung, Wei Liu, Jian Luan, Shuo Shang, Xiuying Chen, Rui Yan

Gaoling School of Artificial Intelligence, Renmin University of China, MoonshotAI, Xiaomi AI Lab, University of Electronic Science and Technology of China, Mohamed bin Zayed University of Artificial Intelligence, School of Artificial Intelligence, Wuhan University, Engineering Research Center of Next-Generation Intelligent Search and Recommendation, MoE

Generated by grok-3

Background Problem

大型语言模型(LLMs)在少样本上下文学习(ICL)中表现出色,但随着演示样本数量从少到多(many-shot ICL),性能往往达到平台期甚至下降。论文指出了两个主要原因:一是训练目标(负对数似然,NLL)的次优性,导致模型在许多下游任务上的表现恶化;二是随着演示样本数量增加,数据噪声累积,影响ICL效果。针对这些问题,论文提出了一种新的优化方法DrICL,旨在通过差异化学习和重新加权目标来提升many-shot ICL的性能,同时构建了一个大规模多任务数据集ICL-50,用于支持训练和评估。

Method

DrICL方法从全局和局部两个视角优化many-shot ICL的性能:

Experiment

实验基于两个基础模型(Llama-2-7b-chat-hf和Mistral-7B-Instruct-v0.2)在自建的ICL-50数据集上进行,ICL-50包含50个任务,涵盖1到350个shots,序列长度高达8000个token,任务类型多样,包括问答、分类、聚类、摘要等。实验设置了多个基线(无微调NFT、指令微调IT、MetaICL),并通过准确率、ROUGE、BLEU等指标评估性能。结果显示,DrICL在大多数任务上优于基线,尤其在many-shot场景下性能更稳定,例如在CLSClusteringS2S数据集上,随着k-shots增加,DrICL的准确率持续提升,最高达到0.89,而MetaICL等基线出现波动。然而,DrICL与MetaICL的性能差距在某些数据集上(如XSUM、CNN)并不显著,且在部分任务(如ArxivClusteringS2S)上性能提升有限。此外,实验未充分探讨不同任务类型对方法的适应性,超参数(如α\alphaγ\gamma)的选择依据不够透明,计算开销也未被详细分析。总体而言,实验设计覆盖了多种场景,但结果的普适性和方法的实际改进幅度仍需进一步验证。

Further Thoughts

尽管DrICL在many-shot ICL中展现了一定的潜力,但其方法设计和实验结果仍存在值得深入探讨的局限性。首先,差异化学习依赖于超参数α\alpha的调节,但论文未提供足够的分析来证明这种调节在不同模型和任务上的鲁棒性,未来可以探索自适应调节策略以减少人工干预。其次,基于优势的重新加权机制虽然创新,但其窗口大小和采样策略的选择可能引入新的偏差,尤其是在任务样本长度差异较大的情况下,是否会导致对短文本或长文本任务的偏见?此外,DrICL的计算开销可能限制其在资源受限环境下的应用,论文未提供这方面的详细评估,未来研究可以对比其与轻量级方法的效率-效果权衡。最后,ICL-50数据集是一个重要贡献,但其任务分布是否能代表真实世界的多样性仍需验证,特别是在跨领域泛化性方面。可以考虑与其他公开数据集(如BIG-bench)进行对比实验,以进一步验证DrICL的适用性。这些思考不仅针对本文,也与更广泛的ICL研究相关,例如如何在长上下文学习中平衡性能与稳定性,这可能是未来研究的一个重要方向。



Previous Post
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent
Next Post
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants