Local Mixtures of Experts: Essentially Free Test-Time Training via Model Merging

本文提出测试时模型合并（TTMM）方法，通过在训练时预训练大量专家模型并在测试时动态合并参数，以几乎无测试时开销的方式逼近测试时训练（TTT）的语言建模性能。

Large Language Model, Parameter-Efficient Fine-Tuning, Efficiency, Test Time, Representation Learning

Ryo Bertolissi, Jonas Hübotter, Ido Hakimi, Andreas Krause

ETH Zurich

Generated by grok-3

Background Problem

测试时训练（TTT）是一种通过在测试时针对每个任务（如提示词）微调模型来提升性能的转导（transductive）方法，尤其在语言建模中表现出显著改进。然而，TTT的测试时计算成本极高，因为每次预测都需要对模型进行微调。本文提出了一种名为测试时模型合并（TTMM）的方法，旨在通过在训练时预先训练大量专家模型并在测试时动态合并相关专家模型参数，以几乎无测试时开销的方式逼近TTT的性能，解决TTT高计算成本的问题。

Method

TTMM方法分为两个主要阶段：

训练时阶段：
- 使用二分k-means算法将训练数据聚类为多个局部邻域（clusters），每个簇代表一个特定的数据子集。
- 为每个簇训练一个独立的专家模型，具体是通过LoRA（Low-Rank Adaptation）适配器对预训练语言模型进行轻量级微调。
- 计算每个簇的中心嵌入（centroid），作为该专家模型的代表性特征。
测试时阶段：
- 给定一个提示词（prompt），计算其嵌入与各簇中心嵌入的相似度。
- 使用稀疏交叉注意力机制（sparse cross-attention）计算合并系数，选择一小部分相关专家模型（通常为3到10个），并根据系数合并其LoRA适配器参数，形成一个任务特定的模型。
- 使用合并后的模型进行预测，合并过程在参数空间完成，仅需一次前向推理。 关键创新：通过在训练时预先完成专家模型的训练和聚类，TTMM将TTT的计算成本从测试时转移到训练时，同时通过参数合并避免了传统专家混合（MoE）模型中多专家推理的高开销。 潜在问题：合并多个专家模型可能导致参数干扰，影响性能；此外，聚类质量和中心嵌入的代表性可能对最终效果产生较大影响，论文未充分讨论这些潜在局限性。

Experiment

实验在Wikipedia（英文）和GitHub（Python代码）两个数据集上进行，使用Llama-3.2-1B和Qwen-2.5-1.5B作为基础模型，评估指标为困惑度（perplexity，数值越低越好）。

实验设置：训练数据被聚类为100到1000个簇，每个簇训练一个LoRA适配器。测试时选择1到10个活跃专家模型进行合并或集成（ensembling）。对比方法包括基础模型、单模型微调、TTT以及不同合并系数的TTMM变体。
结果：TTMM在10个活跃专家时，困惑度接近TTT（例如在Wikipedia上，Llama-3.2-1B基础模型为8.674，TTT为7.559，TTMM为7.510），显著优于单模型微调（7.849）。测试时开销极低，合并10个专家的开销仅相当于生成约20个token，而TTT的开销是其125倍以上。
分析：实验设置较为合理，数据集覆盖了语言建模的两个典型领域（文本和代码），但任务单一，未涉及问答、推理等更复杂任务，可能限制结果的泛化性。专家数量增加到1000时性能提升趋于饱和，可能是由于专家冗余或合并干扰，论文未深入分析这一现象。此外，稀疏交叉注意力机制在合并系数计算中表现优于均匀加权，但对比其他方法（如logit-entropy）的优势不明显，且计算开销未被充分量化。

Further Thoughts

TTMM提供了一种高效逼近TTT的思路，其核心在于将计算成本前置到训练阶段，这与近年来联邦学习和持续学习中关于如何平衡训练与推理开销的讨论有异曲同工之妙。未来可以探索TTMM在非语言建模任务（如图像生成或多模态任务）中的应用潜力，尤其是在需要动态适应的场景中。此外，论文中提到的专家模型合并可能导致的参数干扰问题值得进一步研究，或许可以借鉴多任务学习中的冲突缓解技术（如梯度投影或权重正则化）来优化合并过程。另一个有趣的方向是结合检索增强生成（RAG），通过将TTMM的专家选择与RAG的上下文检索结合，可能进一步提升模型在知识密集型任务中的表现，同时保持测试时的高效性。