It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs

本文提出基于广义高斯分布（GGD）的LLM优化框架，通过GG初始化、DeepShape后处理和RF8浮点格式，从初始化到部署全流程提升模型压缩率、精度和硬件效率，实验显示显著的压缩率提升和可控的精度损失。

Large Language Model, Pre-training, Efficiency, Generative AI, Multimodal Systems

Jun Wu, Yirong Xiong, Jiangtao Wen, Yuxing Han

Tsinghua University Shenzhen International Graduate School, New York University

Generated by grok-3

Background Problem

大型语言模型（LLMs）在多个任务中表现出色，但其巨大的规模和计算需求对训练、部署和实时推理构成了重大挑战，尤其是在内存和功耗受限的环境中。现有压缩技术（如剪枝、量化和蒸馏）多在训练后应用，与优化过程脱节，且对模型参数的统计分布及其对初始化、训练动态和下游效率的影响研究不足。本文基于预训练LLM参数符合广义高斯分布（GGD）的观察，提出了一种统一的优化框架，旨在从初始化到部署的整个生命周期中利用GGD先验，解决模型效率和硬件适配问题。

Method

本文提出了一种基于广义高斯分布（GGD）的端到端LLM优化框架，包含以下核心方法：

GG初始化方案：通过将模型参数初始化为符合GGD的分布（而非传统高斯分布），利用形状参数γ和尺度参数β调整权重分布，以匹配训练后参数的统计特性，理论上加速收敛并提升泛化能力。公式为： $W^{d_{in} \times d_{out}} \sim GG(0, \sqrt{\frac{\xi}{d_{in}} \cdot \frac{\Gamma(1/\gamma)}{\Gamma(3/\gamma)}}, \gamma)$ ，其中ξ为激活函数校正系数。
DeepShape后处理方法：一种轻量级的训练后正则化技术，通过调整模型参数分布以更接近目标GGD（增大γ，减小β），降低香农熵从而提升压缩率，同时通过少量微调（1-3个epoch）减少性能损失。其核心是基于直方图均衡化思想的参数重映射。
RF8浮点格式：一种专为GGD分布权重设计的8位浮点格式，使用1位符号、5位指数和2位残差编码参数，相比FP16减少50%存储需求，并通过简化乘法计算（仅需2位残差比较）提升计算效率。
统一框架：将GGD先验应用于初始化、训练（结合BackSlash算法）、正则化和量化全流程，旨在实现模型大小、精度和硬件效率的综合提升。 批判性思考：GG初始化依赖于形状参数的选择，但论文未充分探讨其对不同任务和架构的敏感性，可能存在过拟合特定数据集的风险。DeepShape方法虽然计算成本低，但其效果高度依赖于Kγ和Kβ的调整，缺乏系统性参数优化策略，可能导致性能不稳定。RF8格式与BackSlash训练耦合紧密，限制了其在其他训练方法中的适用性。

Experiment

实验设计涵盖了多个LLM架构和任务，具体如下：

GGD参数分布验证：通过对多个开源LLM（如BERT、GPT2、LLaMA等）的参数分布分析，确认其符合GGD（γ<2，β<0.1），优于高斯分布拟合。
GG初始化效果：在BERT模型和IMDB数据集上测试不同形状参数（γ=0.1至2.0），结果显示较小γ值提升压缩率（CR高达87%）和精度（最高83.2%），优于He初始化（CR仅34%，精度75.4%）。跨模型（GPT、LLaMA）和任务（Spam、Offence）测试进一步验证了GG初始化的普适性。
DeepShape压缩能力：在BERT模型上调整Kγ和Kβ参数，压缩率（CR）提升显著（EG编码最高达52%），精度损失可控（部分任务甚至略有提升）。多任务（IMDB、Spam、Topic）和多模型（GPT、LLaMA、Gemma）实验显示CR提升10%-20%，相对提升高达93%。
RF8推理性能：在Gemma、DeepSeek和Qwen模型上，结合BackSlash训练的RF8格式在SQuAD和WMT任务中精度接近FP16和BF16（最高99.97%），远优于FP8（最低26.01%），尤其在大模型中表现更稳定。 批判性思考：实验设置虽覆盖多种模型和任务，但数据集选择（如IMDB、SQuAD）较为常见，可能未充分暴露方法在复杂任务上的局限性。GG初始化和DeepShape的效果在某些任务中波动较大，缺乏对失败案例的分析。RF8实验结果虽好，但主要依赖BackSlash训练，缺乏与其他量化方法的对比，可能高估了其独立价值。此外，实验未涉及计算成本和实际部署场景的详细评估，硬件效率提升的证据不足。

Further Thoughts

本文提出的GGD先验优化框架在理论上具有创新性，但其实际应用价值仍需进一步探索。例如，GG初始化和DeepShape方法是否能与现有的参数高效微调技术（如LoRA）结合，以进一步减少训练成本？此外，RF8格式虽然在低资源推理中表现出色，但其与硬件的具体适配性（如在不同GPU或TPU上的性能）未被充分探讨，未来可以与硬件加速领域的研究结合，测试其在边缘设备上的真实表现。另一个有趣的方向是，GGD先验是否适用于其他类型的模型（如视觉基础模型或多模态模型），尤其是在参数分布可能更复杂的情况下，是否仍能保持压缩和性能的平衡？最后，论文未讨论方法在对抗性攻击或模型安全性方面的潜在影响，考虑到压缩可能引入新的脆弱性，这是一个值得深入研究的方向。