Skip to content
Go back 2504.19811 arXiv logo

Can a Crow Hatch a Falcon? Lineage Matters in Predicting Large Language Model Performance

Published:  at  11:17 PM
75.40 🤔

本文提出谱系正则化矩阵分解(LRMF)方法,通过利用大型语言模型的谱系关系显著提高性能预测准确性,在同质和异质模型场景下均优于传统方法,尤其在冷启动问题上表现突出。

Large Language Model, Performance Prediction, Pre-training, Fine-tuning, Representation Learning

Takuya Tamura, Taro Yano, Masafumi Enomoto, Masafumi Oyamada

NEC Corporation

Generated by grok-3

Background Problem

在大型语言模型(LLM)的开发中,预训练、微调和模型合并等步骤需要大量的计算资源和时间成本。如果能在广泛微调或合并之前准确预测模型性能,将显著降低开发成本并加速研究进程。传统的缩放定律(scaling laws)主要基于模型参数规模和训练数据量等全局因素进行预测,但忽略了模型之间的谱系关系(lineage),即哪些模型是从哪些父模型派生或合并而来的。这种谱系关系可能隐含性能继承特性,因此是一个值得探索的预测维度。本文提出通过谱系信息改进性能预测,解决现有方法在冷启动问题(即新模型缺乏评估数据)上的不足,并为资源高效的模型开发提供指导。

Method

本文提出了两种基于谱系关系的性能预测方法:

Experiment

实验基于Hugging Face Open LLM Leaderboard v2的数据,涵盖2934个模型和6个主要基准测试(BBH, GPQA, IFEval, MATH, MMLU-Pro, MuSR)的21000多个实例,分为同质模型(Qwen 2.5-7B家族)和异质模型(所有模型)两种场景。实验设置包括:

Further Thoughts

本文提出的谱系关系在LLM性能预测中的应用是一个有前景的方向,但其局限性也值得进一步探讨。例如,谱系信息的准确性和完整性对方法效果至关重要,而现实中许多模型的谱系数据可能缺失或不准确,这可能限制方法的广泛应用。此外,不同类型的谱系连接(如微调与合并)对性能的影响可能存在显著差异,未来研究可以尝试引入加权谱系连接或更细粒度的谱系分类来提高预测精度。另一个有趣的思考是,谱系关系是否可以与其他领域(如生物学中的进化树)的方法结合,通过借鉴系统发育分析的技术来更精确地建模模型间的性能继承特性。最后,考虑到LLM开发中日益增长的模型多样性和复杂性,是否可以通过动态更新谱系图或结合在线学习方法,使预测模型适应不断变化的模型生态,这可能是未来研究的一个重要方向。



Previous Post
The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)
Next Post
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs