Skip to content
Go back 2503.03862 arXiv logo

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Published:  at  11:32 AM
90.51 🤔

本文通过对92个开源语言模型的元分析,提出了一种超越缩放定律的性能预测框架,揭示了数据组成(如代码比例15-25%)和架构决策对下游任务性能的显著影响,预测精度相对提升3-28%。

Large Language Model, Pre-training, Data Augmentation, Reasoning, Prediction

Emmy Liu, Amanda Bertsch, Lintang Sutawika, Lindia Tjuatja, Patrick Fernandes, Lara Marinov, Michael Chen, Shreya Singhal, Carolin Lawrence, Aditi Raghunathan, Kiril Gashteovski, Graham Neubig

Carnegie Mellon University, Instituto Superior Técnico, Instituto de Telecomunicações, NEC Laboratories Europe, CAIR, Ss. Cyril and Methodius University of Skopje

Generated by grok-3

Background Problem

语言模型能力的提升通常归因于模型规模或训练数据量的增加,但有时较小的模型在精心挑选的数据或不同的架构决策下可以超越更大的模型。这引发了一个问题:除了规模之外,哪些设计决策影响了模型的性能?传统的缩放定律(Scaling Laws)仅基于参数数量和训练数据量来预测性能,但无法完全解释下游任务的表现差异。本研究旨在通过分析92个开源预训练模型,系统性地探究模型架构和数据组成等设计决策对下游任务性能的影响,解决如何更准确预测模型性能并理解设计选择背后影响的关键问题。

Method

本研究提出了一种元分析框架,通过以下步骤探究语言模型设计决策对性能的影响:

批判性思考:虽然方法创新地将多种特征纳入性能预测,但其观察性分析本质限制了因果推断能力。生成文本推断数据组成的方法可能引入偏差,因为生成内容未必准确反映训练数据分布。此外,特征选择过程可能忽略了一些未被充分记录的优化细节(如学习率调度),这可能对性能有重要影响。

Experiment

实验围绕92个开源模型在12个下游任务基准(如GSM8K、HumanEval、TruthfulQA)上的性能预测展开:

Further Thoughts

本文提出的框架为理解语言模型设计决策的影响提供了一个有价值的起点,但其观察性分析的局限性让我思考:是否可以通过设计更具控制性的预训练实验,进一步验证关键特征(如代码比例)的影响?例如,可以系统性地改变单一变量(如代码数据比例)并在大规模模型上测试其对多种任务的影响。此外,作者提到的生成文本推断数据组成的方法启发了我:是否可以结合更先进的生成分析技术(如基于主题建模或语义聚类)来更准确地表征训练数据分布?另一个有趣的方向是,本文的分析主要集中在英语模型上,未来是否可以扩展到多语言模型,探索语言分布对性能的影响?这可能与多语言数据平衡的研究(如Chang et al., 2023)结合,揭示更多跨语言设计决策的洞察。最后,我认为本文的框架可以与可解释性研究结合,通过控制设计变量进行干预实验,深入理解模型能力的形成机制,为安全性和偏见缓解提供新思路。



Previous Post
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
Next Post
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search