Skip to content
Go back 2502.04375 arXiv logo

An Analysis for Reasoning Bias of Language Models with Small Initialization

Published:  at  11:52 AM
87.56 🤔

本文通过理论分析和实验验证,揭示了小参数初始化规模如何通过影响嵌入空间和训练动态,促使大型语言模型更倾向于推理任务而非记忆任务。

Large Language Model, Reasoning, Embeddings, Transformer, Pre-training

Junjie Yao, Zhongwang Zhang, Zhi-Qin John Xu

Shanghai Jiao Tong University, Institute of Natural Sciences, Center for LLM, Institute for Advanced Algorithms Research, Shanghai Seres Information Technology Co., Ltd

Generated by grok-3

Background Problem

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著成功,特别是在文本生成和复杂推理任务中表现出色。然而,关于LLMs是否真正学习了逻辑规则还是仅仅模仿数据模式,仍存在争议。本研究从模型训练过程和架构的角度出发,探讨参数初始化规模对LLMs训练行为和任务偏好的影响,重点解决如何通过初始化策略优化模型在推理任务上的表现这一关键问题。研究发现,小初始化规模(γ > 0.5)会促使模型更倾向于推理任务,而大初始化规模则偏向记忆任务,这一现象背后的机制尚不完全清晰。

Method

本研究提出了一种分析框架,结合理论分析和实验验证,探索参数初始化规模对LLMs任务偏好的影响:

Experiment

实验设计涵盖合成数据和真实数据集,旨在验证初始化规模对推理偏好的影响:

Further Thoughts

本文提出的初始化规模对推理偏好的影响提供了一个有趣的视角,但其实际应用价值值得进一步探讨。例如,在实际训练大型语言模型时,初始化规模的选择往往需要平衡训练稳定性和收敛速度,小初始化规模可能导致梯度消失或训练不稳定等问题,这在论文中未被充分讨论。此外,嵌入空间的区分度与推理能力之间的因果关系仍需更多证据支持,未来的研究可以结合神经科学中的表示学习理论,探索推理能力是否真正源于嵌入空间的结构,而非仅仅是训练数据的特性。另一个值得思考的方向是初始化策略与其他训练技术(如数据选择、指令微调)的结合,例如是否可以通过动态调整初始化规模或结合特定的数据分布,进一步增强模型的推理能力。这些问题若能解决,将大大提升本文理论框架的实际意义。



Previous Post
Explaining Context Length Scaling and Bounds for Language Models
Next Post
CREAM: Consistency Regularized Self-Rewarding Language Models