Skip to content
Go back 2502.07490 arXiv logo

Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

Published:  at  11:13 AM
89.28 🤔

本文提出MEAP训练范式,通过在下一词预测中引入随机掩码策略,显著提升大型语言模型在关键信息检索和长上下文推理任务中的性能,同时保持计算效率和架构兼容性。

Large Language Model, Pre-training, Fine-tuning, Reasoning, Representation Learning

Xialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu

School of Artificial Intelligence, University of Chinese Academy of Sciences, China, SCITIX (SGP) TECH PTE. LTD., Singapore, South China Normal University, China, University of Texas at Austin, USA, Sun Yat-Sen University, China, University of Oxford, UK

Generated by grok-3

Background Problem

大型语言模型(LLMs)在关键信息检索和长上下文推理任务中表现出局限性,尤其是在从长文本中准确提取关键信息方面。下一词预测(NTP)作为主流训练范式,虽然在文本生成和扩展性上表现优异,但对上下文中的关键信息检索能力不足;而掩码语言建模(MLM)虽然擅长信息检索,却不适合生成任务且通常需要复杂的双向注意力或编码器-解码器架构。本文提出了一种新的训练范式,旨在结合NTP和MLM的优势,解决LLMs在长上下文任务中的信息检索问题,同时保持计算效率和架构兼容性。

Method

MEAP(Mask-Enhanced Autoregressive Prediction)是一种将掩码语言建模(MLM)思想融入下一词预测(NTP)的训练范式,核心思想是通过随机掩码输入序列的一部分,增强模型对非掩码token的注意力分配,从而提升关键信息检索能力。

批判性思考:虽然MEAP的设计简单且直观,但掩码比例的选择(15%和10%)缺乏充分的理论依据,可能是实验调参的结果。此外,掩码是否真的能有效提升注意力分配的区分性,仍需更多证据支持,特别是在不同任务和模型规模下的泛化性可能存在问题。微调阶段序列复制导致长度翻倍,尽管作者声称效率更高,但实际计算成本的增加可能被低估。

Experiment

实验分为预训练和微调两个阶段,旨在验证MEAP在关键信息检索、长上下文推理和语言建模能力上的效果。

Further Thoughts

MEAP提出了一种有趣的训练范式,通过掩码策略增强注意力分配的区分性,这一思想或许可以进一步扩展到其他领域,如视觉Transformer中的图像patch掩码策略,探索其在多模态模型中的应用潜力。此外,MEAP对注意力机制的改进与近期一些关于稀疏注意力机制的研究(如Martins et al., 2020)有异曲同工之妙,是否可以通过结合稀疏注意力进一步提升MEAP的效果,值得探索。然而,我对MEAP的长期影响持保留态度:掩码策略是否会在更大规模模型或更复杂任务中导致信息丢失或过拟合问题?特别是在资源受限的场景下,微调阶段的序列复制策略可能对计算成本造成更大负担,如何优化这一设计以适应工业级应用,是一个亟待解决的问题。未来研究还可以聚焦于掩码比例的动态调整或基于任务的自适应掩码策略,以进一步提升模型的泛化能力和效率。



Previous Post
UFT: Unifying Supervised and Reinforcement Fine-Tuning
Next Post
Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations