Skip to content
Go back 2505.07293 arXiv logo

AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

Published:  at  11:20 PM
91.07 🤔

本文提出AttentionInfluence方法,通过无监督地利用预训练模型注意力头机制选择推理密集型数据,显著提升了7B参数模型在知识和推理任务上的性能,展现了弱到强的扩展潜力。

Large Language Model, Pre-training, Reasoning, Data Augmentation, Efficiency

Kai Hua, Steven Wu, Ge Zhang, Ke Shen

ByteDance Seed

Generated by grok-3

Background Problem

大型语言模型(LLMs)的预训练数据质量对模型性能至关重要,尤其是在提升复杂推理能力方面。传统方法通常依赖人工标注或大型模型生成的监督信号来训练分类器以筛选高质量数据,但这种方式成本高昂且可能引入领域偏见,限制了数据的多样性。本文提出一个关键问题:如何高效、可扩展地识别多样化的高质量预训练数据,特别是推理密集型数据?为此,作者提出了AttentionInfluence方法,试图通过利用预训练模型内部的注意力头机制,在无监督、无训练成本的情况下解决这一问题。

Method

AttentionInfluence是一种无需训练、无监督信号的预训练数据选择方法,其核心思想是利用预训练语言模型中注意力头的激活模式来评估数据的推理强度。具体步骤如下:

关键创新:该方法无需额外训练或标注,依赖模型内部机制进行数据选择,降低了成本并提高了可扩展性。

潜在问题:首先,检索头的选择基于特定任务和假设,但论文未充分验证这一假设是否适用于所有推理场景或不同模型架构。其次,掩码操作可能导致模型行为不可预测,损失差值的解释力可能因领域不同而变化,论文未提供理论上的严谨支持。此外,方法对领域内数据的依赖可能限制其在跨领域数据选择中的表现。

Experiment

实验中,作者使用一个1.3B参数的LLaMA2类似模型对SmolLM-Corpus(241B token)进行数据选择,筛选出约73.1B token的推理密集型数据,并将其与完整SmolLM-Corpus混合,用于预训练一个7B参数模型(训练token总量为1T)。对比实验包括使用完整SmolLM-Corpus预训练的基线模型,以及使用FineWeb-Edu分类器选择数据的对比。

Further Thoughts

AttentionInfluence提供了一个有趣的视角,即利用模型内部机制进行数据选择,这可能启发未来在其他模型架构(如CNN或GNN)中探索类似的无监督数据筛选方法。然而,方法对注意力头的依赖可能使其对Transformer架构过于特化,限制了普适性。进一步研究可以探索结合多头注意力与MLP机制的综合影响,以更全面地捕捉数据质量信号。此外,论文中提到的与FineWeb-Edu分类器的互补性值得深入挖掘,或许可以通过混合策略(例如将AttentionInfluence与困惑度过滤结合)进一步提升数据选择的多样性和质量。另一个值得关注的领域是长文本处理,特别是在长上下文推理任务中,AttentionInfluence是否能有效识别长距离依赖数据仍是一个开放问题。最后,考虑到计算成本随模型规模增加而显著上升,未来的优化方向可能包括设计更高效的注意力头检测算法或探索分布式计算框架,以支持更大规模的预训练数据筛选。



Previous Post
Training Language Models to Reason Efficiently
Next Post
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios