Skip to content
Go back 2502.13178 arXiv logo

Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis

Published:  at  11:51 AM
85.09 🤔

本文通过提出 PTQ-Bench 基准测试框架,系统评估了大型语言模型后训练量化(PTQ)策略的跨位宽、跨结构和跨模态鲁棒性,发现旋转型和补偿型策略在低位量化中表现优异,并提出极低位量化需重新审视及补偿型策略结合其他方法可显著提升鲁棒性的关键见解。

Large Language Model, Efficiency, Pre-training, Robustness, Multimodality

Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie

Harbin Institute of Technology (Shenzhen), Illinois Institute of Technology

Generated by grok-3

Background Problem

大型语言模型(LLMs)因其巨大的参数规模而面临显著的内存和推理开销,限制了其实际部署。后训练量化(PTQ)作为一种高效且资源友好的模型压缩技术被广泛采用。然而,现有研究缺乏对不同 PTQ 策略的优劣和适用场景的深入分析,导致未来研究者在选择基础框架时面临困惑。本文旨在通过提出一个全面的分类法和基准测试框架 PTQ-Bench,解决如何根据具体需求选择合适的 PTQ 策略这一关键问题。

Method

本文提出了一个系统化的研究框架,核心方法包括以下步骤:

批判性思考:分类法虽然清晰,但过于依赖现有方法的表层特征,可能忽略了潜在的交叉策略或新兴方法。此外,PTQ-Bench 的评估维度虽然全面,但对某些策略在特定场景下失效的根本原因分析不足,例如 AWQ 在 Mamba 和 MoE 模型上的不适用性,仅归因于结构差异,缺乏更深层次的理论探讨。

Experiment

实验基于 PTQ-Bench 框架,覆盖了多种模型(LLaMA 家族、Mixtral、DeepSeekMoE、Mamba、LLaVA1.5、VILA1.5)、位宽(2-bit 到 4-bit)和评估任务(语言建模、推理等)。主要结果如下:

实验设置分析:实验覆盖面广,设置较为全面,涵盖了多种模型规模、结构和模态,评估指标(困惑度和准确率)也合理。然而,实验对某些策略失效的具体原因缺乏深入分析,例如 AWQ 在非传统结构上的不适用性未提供数据支持或理论解释。此外,组合策略的实验样本较少,结论可能不够稳健。

批判性思考:结果基本符合预期,但部分结论(如 2-bit 大模型性能不如 4-bit 小模型)更多基于观察,缺乏量化误差来源的理论支持,可能限制其普适性。此外,实验未充分探讨不同训练数据量对量化效果的影响,仅提及 LLaMA-3/3.1 训练数据更多导致信息损失更大,未提供进一步验证。

Further Thoughts

本文提出的 PTQ-Bench 框架为量化研究提供了一个系统化的评估工具,值得进一步推广到其他模型压缩技术(如剪枝或知识蒸馏)中,以构建更全面的模型压缩基准。此外,作者关于极低位量化在超大模型上性能不佳的发现引发了我的思考:是否可以通过设计专门针对超大模型的量化算法(如结合模型结构特异性或训练数据特性)来弥补这一不足?与近期一些关于量化感知训练(QAT)的研究相比,PTQ 的资源友好性优势明显,但其在极低位时的性能瓶颈可能需要借鉴 QAT 的思路,例如在量化过程中引入少量训练数据进行微调。

另一个值得深入探讨的方向是量化与模型结构的交互影响。本文指出 AWQ 在 Mamba 和 MoE 模型上的不适用性,这可能与模型的非线性层或路由机制有关。未来研究可以尝试设计自适应的量化策略,根据模型结构动态调整量化参数,以提升跨结构鲁棒性。此外,补偿型策略作为统一鲁棒性基础的结论虽然有趣,但其与其他策略组合的潜力尚未充分挖掘,未来可以探索更多组合方式或引入多目标优化框架来进一步提升性能上限。



Previous Post
Concise Reasoning via Reinforcement Learning
Next Post
Reinforcement Learning for Reasoning in Large Language Models with One Training Example