Tag: Pre-training
All the articles with the tag "Pre-training".
-   
Dynamic Fisher-weighted Model Merging via Bayesian Optimization
本文提出了动态 Fisher 加权合并 (DF-Merge) 方法,通过贝叶斯优化动态调整微调模型的缩放系数,并在这些缩放模型上利用 Fisher 信息进行加权合并,从而高效地创建性能显著优于现有基线的多任务模型。
 -   
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data
本文通过大规模实验证明,预训练小型Transformer模型在考虑参数大小的情况下,能在文本、图像和音频的分布外数据上实现与传统压缩算法竞争的压缩比,尤其在训练模态内表现优异,但跨模态迁移能力较弱。
 -   
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
本文提出SORSA,一种基于奇异值分解和正交正则化的参数高效微调方法,通过优化权重矩阵条件数提升大型语言模型在下游任务上的性能,并在GSM-8K等基准测试中显著优于LoRA和PiSSA等方法。
 -   
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs
本文提出基于广义高斯分布(GGD)的LLM优化框架,通过GG初始化、DeepShape后处理和RF8浮点格式,从初始化到部署全流程提升模型压缩率、精度和硬件效率,实验显示显著的压缩率提升和可控的精度损失。
 -   
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
本文提出MKA方法,通过流形学习和信息瓶颈度量实现大语言模型的层合并压缩,在多个基准数据集上以较小的性能损失实现显著压缩率,并结合量化进一步提升效果。