Tag: Pre-training

All the articles with the tag "Pre-training".

Dynamic Fisher-weighted Model Merging via Bayesian Optimization

Published: 6 May, 2025 at 01:19 AM

86.13 🤔

本文提出了动态 Fisher 加权合并 (DF-Merge) 方法，通过贝叶斯优化动态调整微调模型的缩放系数，并在这些缩放模型上利用 Fisher 信息进行加权合并，从而高效地创建性能显著优于现有基线的多任务模型。
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

Published: 2 Jun, 2025 at 01:15 PM

86.00 🤔

本文通过大规模实验证明，预训练小型Transformer模型在考虑参数大小的情况下，能在文本、图像和音频的分布外数据上实现与传统压缩算法竞争的压缩比，尤其在训练模态内表现优异，但跨模态迁移能力较弱。
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

Published: 31 May, 2025 at 11:34 AM

85.98 🤔

本文提出SORSA，一种基于奇异值分解和正交正则化的参数高效微调方法，通过优化权重矩阵条件数提升大型语言模型在下游任务上的性能，并在GSM-8K等基准测试中显著优于LoRA和PiSSA等方法。
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs

Published: 4 Jun, 2025 at 11:59 AM

85.94 🤔

本文提出基于广义高斯分布（GGD）的LLM优化框架，通过GG初始化、DeepShape后处理和RF8浮点格式，从初始化到部署全流程提升模型压缩率、精度和硬件效率，实验显示显著的压缩率提升和可控的精度损失。
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging

Published: 24 May, 2025 at 11:14 AM

85.94 🤔

本文提出MKA方法，通过流形学习和信息瓶颈度量实现大语言模型的层合并压缩，在多个基准数据集上以较小的性能损失实现显著压缩率，并结合量化进一步提升效果。

Tag: Pre-training

Dynamic Fisher-weighted Model Merging via Bayesian Optimization

Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs

Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging