本文提出Meta-RFFT框架,通过多任务规则跟随预训练和少量下游适应,显著提升了大型语言模型在未见任务上的长度泛化能力,32B模型在长度30的加法任务上达到98%准确率,超越现有长链推理模型。
Large Language Model, Fine-tuning, Reasoning, Meta-Learning, In-Context Learning
Yi Hu, Shijia Kang, Haotong Yang, Haotian Xu, Muhan Zhang
Peking University, Xiaohongshu Inc.
Generated by grok-3
Background Problem
大型语言模型(LLMs)在处理超出训练范围的长序列任务时,常常面临长度泛化(length generalization)问题,即性能显著下降,尤其是在需要迭代推理的任务(如长整数加法)中。现有方法,如修改位置编码(PEs)或数据格式,通常局限于特定任务,且在预训练LLMs的后期微调中效果不佳。单任务规则跟随微调(RFFT)虽然在后期微调阶段提升了长度泛化能力,但需要为每个任务单独准备数据和模型,缺乏跨任务的泛化能力。本文旨在解决跨任务长度泛化问题,通过多任务训练让模型学习规则跟随的通用能力,从而在未见任务上实现强大的长度泛化。
Method
本文提出了Meta规则跟随微调(Meta-RFFT)框架,核心思想是通过多任务规则跟随预训练,让模型学习跨任务的通用规则跟随能力。具体方法分为两个阶段:
- RF-预训练阶段:在包含74个任务(约31万样本)的大型长度泛化数据集上进行监督微调,任务涵盖代码执行、数字处理、逻辑和符号推理等领域,长度范围为1到15。训练目标是让模型掌握规则跟随的共享结构和计算原语(如循环维护)。
- 下游适应阶段:在未见任务上通过两种方式适应:(i) 使用长度1到5的少量样本进行微调;(ii) 使用1-shot提示(仅提供一个示例)。模型在训练中被要求明确输入规则、重复规则内容并描述变量状态变化,以确保严格遵循规则。 关键创新:与单任务RFFT不同,Meta-RFFT强调多任务训练以捕捉规则间的共享模式,并通过预训练减少对任务特定模式的过拟合。然而,我对方法的可扩展性持保留态度:多任务预训练是否会导致模型在某些任务上学习到表面模式,而非真正的规则理解?此外,规则从代码形式到自然语言形式的迁移是否会因语言歧义而受限?
Experiment
实验基于Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct模型,分为RF-预训练和下游适应两个阶段。数据集包含86个任务,其中74个用于预训练,12个用于测试(包括LeetCode和NUPA任务)。下游任务训练使用长度1到5的样本(共5千样本),测试长度为6到30,以评估长度泛化能力。结果显示:
- 性能对比:Meta-RFFT在7B和32B模型上均显著优于直接回答、草稿纸(scratchpad)和单任务RFFT方法。例如,32B模型在长度30时的平均准确率(ACC_Len30)达到98%,远超DeepSeek-R1-671B(84%)和QwQ-32B(79%)。
- 1-shot学习:在未见任务上,仅用一个示例,32B模型的Max_Len_90%(保持90%准确率的最大长度)达到28.5,显示出强大的上下文学习能力。
- 错误分析:Meta-RFFT通过预训练显著降低了循环维护错误,这是长度泛化失败的主要原因。 评价:实验设置较为全面,涵盖了不同模型规模和适应方式,任务多样性也较高。然而,测试任务数量较少(仅12个),可能无法完全代表跨任务泛化的真实挑战。此外,论文未提供极端长度(如远超30)或更复杂任务的测试结果,可能高估了方法的鲁棒性。实验中对共享计算原语的分析较为表面,缺乏具体证据支持其作用机制。
Further Thoughts
Meta-RFFT的跨任务长度泛化能力为LLMs在实际应用中的适应性提供了新思路,但其成功依赖于大规模多任务数据集的构建,这在资源受限场景下可能难以复制。未来研究可以探索如何在更小规模数据集上实现类似效果,例如通过任务规则的结构化表示或生成式数据增强。此外,论文中提到的共享计算原语(如循环维护)是一个有趣的方向,但缺乏深入分析;可以结合模型内部注意力机制的可视化或中间状态探针(probe)技术,进一步揭示模型如何学习和迁移这些原语。另一个值得关注的点是,Meta-RFFT在自然语言规则上的适应能力是否会因语言的模糊性而受限,尤其是在非结构化或多义性较高的任务中,这可能需要结合更强的语义理解技术或多模态规则表示来解决。最后,与其他领域(如机器人控制中的多任务学习)结合,或许能进一步扩展Meta-RFFT的应用场景,例如让模型在物理环境中学习和迁移规则跟随能力。