本文提出谱系正则化矩阵分解(LRMF)方法,通过利用大型语言模型的谱系关系显著提高性能预测准确性,在同质和异质模型场景下均优于传统方法,尤其在冷启动问题上表现突出。
Large Language Model, Performance Prediction, Pre-training, Fine-tuning, Representation Learning
Takuya Tamura, Taro Yano, Masafumi Enomoto, Masafumi Oyamada
NEC Corporation
Generated by grok-3
Background Problem
在大型语言模型(LLM)的开发中,预训练、微调和模型合并等步骤需要大量的计算资源和时间成本。如果能在广泛微调或合并之前准确预测模型性能,将显著降低开发成本并加速研究进程。传统的缩放定律(scaling laws)主要基于模型参数规模和训练数据量等全局因素进行预测,但忽略了模型之间的谱系关系(lineage),即哪些模型是从哪些父模型派生或合并而来的。这种谱系关系可能隐含性能继承特性,因此是一个值得探索的预测维度。本文提出通过谱系信息改进性能预测,解决现有方法在冷启动问题(即新模型缺乏评估数据)上的不足,并为资源高效的模型开发提供指导。
Method
本文提出了两种基于谱系关系的性能预测方法:
- 模型谱系平均(Model Lineage Averaging):对于一个新的或评估数据较少的LLM,通过其谱系相关的邻居模型(即父模型或通过微调、合并等关系连接的模型)的性能平均值来估计其性能。公式为:,其中表示模型u的谱系邻居集合。
- 谱系正则化矩阵分解(Lineage-Regularized Matrix Factorization, LRMF):在传统矩阵分解框架中,引入谱系关系的图拉普拉斯正则化项,强制谱系相关的模型在潜在空间中具有相似的嵌入表示。其目标函数为:,其中和分别是基于模型谱系和任务相似性的正则化项,和为对应的正则化参数。通过这种方式,LRMF不仅利用了已有的性能数据,还通过谱系约束提高了对新模型的预测能力。
Experiment
实验基于Hugging Face Open LLM Leaderboard v2的数据,涵盖2934个模型和6个主要基准测试(BBH, GPQA, IFEval, MATH, MMLU-Pro, MuSR)的21000多个实例,分为同质模型(Qwen 2.5-7B家族)和异质模型(所有模型)两种场景。实验设置包括:
- 数据集与基准方法:对比了神经协同过滤(NCF with factors)、模型谱系平均和LRMF三种方法,使用皮尔逊相关系数评估预测性能与实际性能的相关性。
- 同质模型实验:在Qwen 2.5-7B家族的145个模型上,LRMF整体相关系数最高(0.719),但在GPQA和MuSR等任务上,模型谱系平均表现更好(分别为0.433和0.612),表明某些任务性能更直接继承自父模型。
- 异质模型实验:在2934个模型上,LRMF仍保持最高相关系数(0.579),但在IFEval等任务上与模型谱系平均的差距缩小,显示异质场景下潜在空间建模难度增加。
- 冷启动与数据稀疏性:实验还测试了不同观测实例数量(5到1000)下的预测效果,LRMF在冷启动场景和少数据情况下表现更优,尤其在同质模型中,仅需50-100个实例即可达到基线方法500+实例的效果。 评价:实验设计较为全面,涵盖了同质和异质场景,并关注冷启动问题。然而,谱系信息提取的可靠性未充分验证,且不同谱系连接类型(如微调与合并)的差异未被深入探讨,可能导致结果解释的局限性。此外,某些基准测试(如GPQA)的负相关系数表明方法在特定任务上的预测能力不足,需进一步分析原因。
Further Thoughts
本文提出的谱系关系在LLM性能预测中的应用是一个有前景的方向,但其局限性也值得进一步探讨。例如,谱系信息的准确性和完整性对方法效果至关重要,而现实中许多模型的谱系数据可能缺失或不准确,这可能限制方法的广泛应用。此外,不同类型的谱系连接(如微调与合并)对性能的影响可能存在显著差异,未来研究可以尝试引入加权谱系连接或更细粒度的谱系分类来提高预测精度。另一个有趣的思考是,谱系关系是否可以与其他领域(如生物学中的进化树)的方法结合,通过借鉴系统发育分析的技术来更精确地建模模型间的性能继承特性。最后,考虑到LLM开发中日益增长的模型多样性和复杂性,是否可以通过动态更新谱系图或结合在线学习方法,使预测模型适应不断变化的模型生态,这可能是未来研究的一个重要方向。