Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data

本文通过大规模实验证明，预训练小型Transformer模型在考虑参数大小的情况下，能在文本、图像和音频的分布外数据上实现与传统压缩算法竞争的压缩比，尤其在训练模态内表现优异，但跨模态迁移能力较弱。

Transformer, Generative Modeling, Multimodal Data, Pre-training, Efficiency

David Heurtel-Depeiges, Anian Ruoss, Joel Veness, Tim Genewein

Chandar Research Lab, MILA - Quebec AI Institute, Polytechnique Montréal, Google DeepMind

Generated by grok-3

Background Problem

基础模型（如大型语言模型）在数据压缩方面表现出色，但由于其巨大的参数规模，在考虑参数大小后的压缩比往往不如传统压缩算法（如gzip、LZMA2）或领域特定压缩器（如PNG、FLAC）。本研究旨在探索是否存在一个‘甜点’，即通过预训练小型Transformer模型（参数规模在百万级别），在考虑参数大小的情况下，实现与标准压缩算法竞争的压缩比。研究聚焦于文本、图像和音频等多模态数据的无损压缩，试图揭示模型的归纳偏见、训练数据组成的影响以及模态间的迁移能力。

Method

本研究采用了解码器型Transformer模型，通过最小化对数损失（等同于最大化压缩目标）进行预训练，并使用算术编码将模型预测转化为无损压缩。具体步骤如下：

模型架构：使用带有SwiGLU激活和后层归一化的解码器型Transformer，默认上下文窗口为4096字节，参数规模从百万到千万不等。
训练数据：在165GB的单模态（文本、图像、音频）和多模态混合数据集上进行预训练，数据以原始字节流形式输入，无额外分词处理，以保持领域通用性。
压缩过程：模型在训练后参数冻结，通过自回归预测生成下一个字节的概率分布，算术编码器基于此分布对数据进行在线压缩。
评估指标：压缩比定义为（压缩数据大小 + 模型参数大小）/ 原始数据大小，其中模型参数以float16编码（每参数2字节）。

批判性思考：方法设计合理，但未对模型参数本身进行压缩可能低估了实际压缩比的上限。此外，上下文窗口大小和模型规模的权衡高度依赖于模态，未提供统一的优化策略，可能限制了模型在多模态场景下的通用性。

Experiment

实验在1GB的分布外（OOD）数据上评估压缩性能，涵盖文本、图像和音频三种模态，并与传统压缩算法（gzip、LZMA2、PNG、FLAC等）和在线自适应Transformer（如Bellard 2021）进行比较。实验设置包括：

数据集规模与模态组合：训练数据为165GB，分为单模态和多模态混合，评估数据为每模态1GB的OOD数据，确保公平比较。
超参数扫描：对模型规模、数据集规模、上下文窗口大小和滑动窗口重叠等进行广泛消融研究。
结果：小型预训练Transformer在训练模态内表现出色，例如在音频数据上压缩比为0.49（优于FLAC的0.54），并与Bellard的在线Transformer相当。多模态训练仅略微降低单模态性能，但显著提升多模态数据的压缩效果。然而，在未见模态上的迁移能力较弱，与大型基础模型形成对比。上下文窗口和模型规模的优化高度依赖模态，例如文本偏好短上下文，图像偏好长上下文。
合理性与局限：实验设计全面，OOD评估设置合理，确保了与传统压缩算法的公平比较。然而，1GB评估数据规模可能限制了对模型在大规模数据上表现的理解。此外，计算成本远高于传统算法（编码速度慢数个数量级），尽管这不是研究目标。

批判性思考：结果表明方法在特定模态内有效，但跨模态迁移的失败原因未深入分析，仅归因于模型规模，而未探讨训练数据分布或策略的影响。此外，实验未涉及更大规模评估数据或参数压缩的影响，可能低估了模型的潜力或局限性。

Further Thoughts

本文的研究为小型Transformer模型在数据压缩领域的应用提供了有趣的视角，但其结论的普适性受到模型规模和评估数据规模的限制。未来研究可以探索更高效的模型架构（如Perceivers或Byte Latent Transformers）是否能进一步提升压缩性能，尤其是在计算成本和跨模态迁移能力方面。此外，跨模态迁移失败的原因值得深入分析，例如是否可以通过改进训练策略（如迁移学习或特定预训练任务）来弥补小型模型与大型基础模型之间的差距。另一个有趣的方向是与AI for Science领域的结合，例如利用压缩模型的归纳偏见来加速科学数据的存储和分析，尤其是在多模态科学数据（如生物图像和时间序列数据）上的应用，这可能揭示模型对复杂数据统计规律的理解能力。