Skip to content
Go back 2505.12212 arXiv logo

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

Published:  at  11:22 AM
85.04 🤔

Data Whisperer 提出了一种高效、无需训练的基于注意力机制的数据选择方法,通过少样本上下文学习为任务特定的大型语言模型微调选择最优数据子集,在小数据场景下显著提升性能并大幅降低计算成本。

Large Language Model, In-Context Learning, Fine-tuning, Data Augmentation, Efficiency

Shaobo Wang, Ziming Wang, Xiangqi Jin, Jize Wang, Jiajun Zhang, Kaixin Li, Zichen Wen, Zhong Li, Conghui He, Xuming Hu, Linfeng Zhang

Shanghai Jiao Tong University, EPIC Lab, SJTU, Nanyang Technological University, National University of Singapore, Microsoft Research Asia, Shanghai AI Laboratory, Hong Kong University of Science and Technology (Guangzhou)

Generated by grok-3

Background Problem

随着大型语言模型(LLM)在任务特定微调中的广泛应用,数据集规模的不断扩大使得高效选择最优训练子集成为一个关键问题。传统的数据选择方法通常需要对目标数据集进行评分模型的微调,这导致了高昂的时间和计算成本;或者依赖启发式规则,未能充分利用模型的预测能力。本文提出了一种新的方法,旨在解决数据选择过程中的效率问题,同时在性能上接近于使用整个数据集进行微调的效果,特别是在小数据场景下。

Method

Data Whisperer 是一种无需训练、基于注意力的数据选择方法,利用少样本上下文学习(ICL)来评估数据样本对任务特定微调的贡献。其核心思想和步骤如下:

批判性思考:虽然该方法避免了微调评分模型的高成本,但其依赖注意力分数进行加权的机制可能存在局限性。注意力分数是否能准确反映数据样本对任务的贡献尚存疑问,尤其是在不同任务和模型架构上的泛化能力。此外,弱到强策略虽然提高了效率,但可能引入选择偏差,尤其是在复杂任务中,较弱模型可能无法充分理解任务需求。

Experiment

实验在三个真实数据集(GSM8K、DialogSum、BioInstruct)和一个合成数据集上进行,涉及多个模型(Llama-3-8B-Instruct、Qwen-2.5-7B-Instruct、Mistral-Nemo-Instruct-2407),并对比了多种数据选择方法(如 Random、GraNd、EL2N、CCS、Nuggets、STAFF)。

Further Thoughts

Data Whisperer 的方法为数据选择提供了一种新颖的视角,尤其是在小数据场景下的高效性值得关注。然而,其对注意力分数的依赖可能限制其在无法访问模型内部结构的场景(如商业 API 模型)中的应用。未来可以探索基于外部行为的替代评分机制,例如通过模型输出概率分布的统计特性来评估样本重要性。此外,论文中提到的低困惑度样本偏好与小数据场景下的性能提升相符,但这是否会牺牲数据多样性,尤其是在需要处理长尾分布或复杂任务时,可能是一个值得深入研究的方向。结合其他领域的研究,如强化学习中的探索-利用权衡(exploration-exploitation trade-off),或许可以设计一种混合策略,在简单样本和高信息量样本之间取得平衡,从而进一步提升模型的泛化能力。最后,Data Whisperer 的弱到强策略与联邦学习中的异构模型协作有一定的相似性,未来可以探索其在分布式环境下的应用潜力。



Previous Post
Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization
Next Post
ExpertSteer: Intervening in LLMs through Expert Knowledge