Skip to content
Go back 2505.14136 arXiv logo

Local Mixtures of Experts: Essentially Free Test-Time Training via Model Merging

Published:  at  11:15 AM
92.79 🤔

本文提出测试时模型合并(TTMM)方法,通过在训练时预训练大量专家模型并在测试时动态合并参数,以几乎无测试时开销的方式逼近测试时训练(TTT)的语言建模性能。

Large Language Model, Parameter-Efficient Fine-Tuning, Efficiency, Test Time, Representation Learning

Ryo Bertolissi, Jonas Hübotter, Ido Hakimi, Andreas Krause

ETH Zurich

Generated by grok-3

Background Problem

测试时训练(TTT)是一种通过在测试时针对每个任务(如提示词)微调模型来提升性能的转导(transductive)方法,尤其在语言建模中表现出显著改进。然而,TTT的测试时计算成本极高,因为每次预测都需要对模型进行微调。本文提出了一种名为测试时模型合并(TTMM)的方法,旨在通过在训练时预先训练大量专家模型并在测试时动态合并相关专家模型参数,以几乎无测试时开销的方式逼近TTT的性能,解决TTT高计算成本的问题。

Method

TTMM方法分为两个主要阶段:

Experiment

实验在Wikipedia(英文)和GitHub(Python代码)两个数据集上进行,使用Llama-3.2-1B和Qwen-2.5-1.5B作为基础模型,评估指标为困惑度(perplexity,数值越低越好)。

Further Thoughts

TTMM提供了一种高效逼近TTT的思路,其核心在于将计算成本前置到训练阶段,这与近年来联邦学习和持续学习中关于如何平衡训练与推理开销的讨论有异曲同工之妙。未来可以探索TTMM在非语言建模任务(如图像生成或多模态任务)中的应用潜力,尤其是在需要动态适应的场景中。此外,论文中提到的专家模型合并可能导致的参数干扰问题值得进一步研究,或许可以借鉴多任务学习中的冲突缓解技术(如梯度投影或权重正则化)来优化合并过程。另一个有趣的方向是结合检索增强生成(RAG),通过将TTMM的专家选择与RAG的上下文检索结合,可能进一步提升模型在知识密集型任务中的表现,同时保持测试时的高效性。



Previous Post
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards
Next Post
Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories