Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis

本文通过提出 PTQ-Bench 基准测试框架，系统评估了大型语言模型后训练量化（PTQ）策略的跨位宽、跨结构和跨模态鲁棒性，发现旋转型和补偿型策略在低位量化中表现优异，并提出极低位量化需重新审视及补偿型策略结合其他方法可显著提升鲁棒性的关键见解。

Large Language Model, Efficiency, Pre-training, Robustness, Multimodality

Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie

Harbin Institute of Technology (Shenzhen), Illinois Institute of Technology

Generated by grok-3

Background Problem

大型语言模型（LLMs）因其巨大的参数规模而面临显著的内存和推理开销，限制了其实际部署。后训练量化（PTQ）作为一种高效且资源友好的模型压缩技术被广泛采用。然而，现有研究缺乏对不同 PTQ 策略的优劣和适用场景的深入分析，导致未来研究者在选择基础框架时面临困惑。本文旨在通过提出一个全面的分类法和基准测试框架 PTQ-Bench，解决如何根据具体需求选择合适的 PTQ 策略这一关键问题。

Method

本文提出了一个系统化的研究框架，核心方法包括以下步骤：

分类法构建：作者回顾了主流的仅权重 PTQ 技术，并根据设计策略和优化机制将其分为四类：补偿型（如 GPTQ，通过动态更新权重补偿量化误差）、旋转型（如 QuIP，通过变换权重矩阵减少异常值影响）、显著性型（如 AWQ，根据权重重要性选择性处理）和优化型（如 OmniQuant，通过优化框架更新量化参数）。
基准测试框架 PTQ-Bench：作者构建了一个统一的评估基准，重点评估 PTQ 策略在跨位宽鲁棒性（从 4-bit 到 2-bit）、跨结构鲁棒性（不同模型结构如 LLaMA、Mamba、MoE）和跨模态鲁棒性（多模态模型如 LLaVA 和 VILA）上的表现。
实验设计：选择每类策略的代表性方法（如 AWQ、GPTQ、QuIP、OmniQuant），在多种模型规模（7B-70B）、结构和模态上进行广泛实验，使用困惑度和推理准确率作为评估指标。

批判性思考：分类法虽然清晰，但过于依赖现有方法的表层特征，可能忽略了潜在的交叉策略或新兴方法。此外，PTQ-Bench 的评估维度虽然全面，但对某些策略在特定场景下失效的根本原因分析不足，例如 AWQ 在 Mamba 和 MoE 模型上的不适用性，仅归因于结构差异，缺乏更深层次的理论探讨。

Experiment

实验基于 PTQ-Bench 框架，覆盖了多种模型（LLaMA 家族、Mixtral、DeepSeekMoE、Mamba、LLaVA1.5、VILA1.5）、位宽（2-bit 到 4-bit）和评估任务（语言建模、推理等）。主要结果如下：

跨位宽鲁棒性：在 4-bit 时，所有策略表现相当，但显著性型（如 AWQ）略占优势；在 3-bit 时，AWQ 仍保持最佳；到 2-bit 时，AWQ 和 OmniQuant 完全崩溃，而旋转型（QuIP）和补偿型（GPTQ）表现出较好的低位鲁棒性，尤其 QuIP 在 LLaMA-1/2 上、GPTQ 在 LLaMA-3/3.1 上表现更优。
跨结构鲁棒性：AWQ 在 Mamba 和 MoE 模型上无法适用，OmniQuant 表现不稳定，而 GPTQ 和 QuIP 展现出较好的结构适应性，其中 GPTQ 在高位、QuIP 在 2-bit 时更具优势。
跨模态鲁棒性：在多模态模型上，高位时各策略表现接近，但在 2-bit 时仅 GPTQ 和 QuIP 保持有效推理能力。
额外见解：实验发现 2-bit 超大模型性能不如 4-bit 小模型，3-bit 是有效的量化目标；补偿型策略结合其他策略可显著提升鲁棒性。

实验设置分析：实验覆盖面广，设置较为全面，涵盖了多种模型规模、结构和模态，评估指标（困惑度和准确率）也合理。然而，实验对某些策略失效的具体原因缺乏深入分析，例如 AWQ 在非传统结构上的不适用性未提供数据支持或理论解释。此外，组合策略的实验样本较少，结论可能不够稳健。

批判性思考：结果基本符合预期，但部分结论（如 2-bit 大模型性能不如 4-bit 小模型）更多基于观察，缺乏量化误差来源的理论支持，可能限制其普适性。此外，实验未充分探讨不同训练数据量对量化效果的影响，仅提及 LLaMA-3/3.1 训练数据更多导致信息损失更大，未提供进一步验证。

Further Thoughts

本文提出的 PTQ-Bench 框架为量化研究提供了一个系统化的评估工具，值得进一步推广到其他模型压缩技术（如剪枝或知识蒸馏）中，以构建更全面的模型压缩基准。此外，作者关于极低位量化在超大模型上性能不佳的发现引发了我的思考：是否可以通过设计专门针对超大模型的量化算法（如结合模型结构特异性或训练数据特性）来弥补这一不足？与近期一些关于量化感知训练（QAT）的研究相比，PTQ 的资源友好性优势明显，但其在极低位时的性能瓶颈可能需要借鉴 QAT 的思路，例如在量化过程中引入少量训练数据进行微调。

另一个值得深入探讨的方向是量化与模型结构的交互影响。本文指出 AWQ 在 Mamba 和 MoE 模型上的不适用性，这可能与模型的非线性层或路由机制有关。未来研究可以尝试设计自适应的量化策略，根据模型结构动态调整量化参数，以提升跨结构鲁棒性。此外，补偿型策略作为统一鲁棒性基础的结论虽然有趣，但其与其他策略组合的潜力尚未充分挖掘，未来可以探索更多组合方式或引入多目标优化框架来进一步提升性能上限。