Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs

本文提出Meta-RFFT框架，通过多任务规则跟随预训练和少量下游适应，显著提升了大型语言模型在未见任务上的长度泛化能力，32B模型在长度30的加法任务上达到98%准确率，超越现有长链推理模型。

Large Language Model, Fine-tuning, Reasoning, Meta-Learning, In-Context Learning

Yi Hu, Shijia Kang, Haotong Yang, Haotian Xu, Muhan Zhang

Peking University, Xiaohongshu Inc.

Generated by grok-3

Background Problem

大型语言模型（LLMs）在处理超出训练范围的长序列任务时，常常面临长度泛化（length generalization）问题，即性能显著下降，尤其是在需要迭代推理的任务（如长整数加法）中。现有方法，如修改位置编码（PEs）或数据格式，通常局限于特定任务，且在预训练LLMs的后期微调中效果不佳。单任务规则跟随微调（RFFT）虽然在后期微调阶段提升了长度泛化能力，但需要为每个任务单独准备数据和模型，缺乏跨任务的泛化能力。本文旨在解决跨任务长度泛化问题，通过多任务训练让模型学习规则跟随的通用能力，从而在未见任务上实现强大的长度泛化。

Method

本文提出了Meta规则跟随微调（Meta-RFFT）框架，核心思想是通过多任务规则跟随预训练，让模型学习跨任务的通用规则跟随能力。具体方法分为两个阶段：

RF-预训练阶段：在包含74个任务（约31万样本）的大型长度泛化数据集上进行监督微调，任务涵盖代码执行、数字处理、逻辑和符号推理等领域，长度范围为1到15。训练目标是让模型掌握规则跟随的共享结构和计算原语（如循环维护）。
下游适应阶段：在未见任务上通过两种方式适应：(i) 使用长度1到5的少量样本进行微调；(ii) 使用1-shot提示（仅提供一个示例）。模型在训练中被要求明确输入规则、重复规则内容并描述变量状态变化，以确保严格遵循规则。 关键创新：与单任务RFFT不同，Meta-RFFT强调多任务训练以捕捉规则间的共享模式，并通过预训练减少对任务特定模式的过拟合。然而，我对方法的可扩展性持保留态度：多任务预训练是否会导致模型在某些任务上学习到表面模式，而非真正的规则理解？此外，规则从代码形式到自然语言形式的迁移是否会因语言歧义而受限？

Experiment

实验基于Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct模型，分为RF-预训练和下游适应两个阶段。数据集包含86个任务，其中74个用于预训练，12个用于测试（包括LeetCode和NUPA任务）。下游任务训练使用长度1到5的样本（共5千样本），测试长度为6到30，以评估长度泛化能力。结果显示：

性能对比：Meta-RFFT在7B和32B模型上均显著优于直接回答、草稿纸（scratchpad）和单任务RFFT方法。例如，32B模型在长度30时的平均准确率（ACC_Len30）达到98%，远超DeepSeek-R1-671B（84%）和QwQ-32B（79%）。
1-shot学习：在未见任务上，仅用一个示例，32B模型的Max_Len_90%（保持90%准确率的最大长度）达到28.5，显示出强大的上下文学习能力。
错误分析：Meta-RFFT通过预训练显著降低了循环维护错误，这是长度泛化失败的主要原因。评价：实验设置较为全面，涵盖了不同模型规模和适应方式，任务多样性也较高。然而，测试任务数量较少（仅12个），可能无法完全代表跨任务泛化的真实挑战。此外，论文未提供极端长度（如远超30）或更复杂任务的测试结果，可能高估了方法的鲁棒性。实验中对共享计算原语的分析较为表面，缺乏具体证据支持其作用机制。

Further Thoughts

Meta-RFFT的跨任务长度泛化能力为LLMs在实际应用中的适应性提供了新思路，但其成功依赖于大规模多任务数据集的构建，这在资源受限场景下可能难以复制。未来研究可以探索如何在更小规模数据集上实现类似效果，例如通过任务规则的结构化表示或生成式数据增强。此外，论文中提到的共享计算原语（如循环维护）是一个有趣的方向，但缺乏深入分析；可以结合模型内部注意力机制的可视化或中间状态探针（probe）技术，进一步揭示模型如何学习和迁移这些原语。另一个值得关注的点是，Meta-RFFT在自然语言规则上的适应能力是否会因语言的模糊性而受限，尤其是在非结构化或多义性较高的任务中，这可能需要结合更强的语义理解技术或多模态规则表示来解决。最后，与其他领域（如机器人控制中的多任务学习）结合，或许能进一步扩展Meta-RFFT的应用场景，例如让模型在物理环境中学习和迁移规则跟随能力。