Skip to content
Go back 2505.13430 arXiv logo

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Published:  at  11:24 AM
85.17 🤔

本文提出Quantized Zeroth-order Optimization (QZO),通过扰动量化尺度参数并结合方向导数裁剪,在量化神经网络上实现零阶优化微调,将内存使用减少18倍以上,并在LLMs和Stable Diffusion上展示出显著的内存效率和一定的性能提升。

Large Language Model, Generative AI, Efficiency, Pre-training, Fine-tuning

Sifeng Shang, Jiayi Zhou, Chenyu Lin, Minxian Li, Kaiyang Zhou

Hong Kong Baptist University, Nanjing University of Science and Technology

Generated by grok-3

Background Problem

随着大型语言模型(LLMs)规模的指数级增长,GPU内存成为适配这些模型到下游任务的瓶颈。传统微调方法需要大量内存来存储模型权重、梯度和优化器状态,例如微调一个Llama-7B模型需要56GB GPU内存。本文旨在通过最小化模型权重、梯度和优化器状态的内存使用,探索内存高效训练的极限,解决资源受限环境下LLMs微调的难题。

Method

本文提出了一种新颖的方法——Quantized Zeroth-order Optimization (QZO),用于在量化神经网络上应用零阶优化(ZO),以实现内存消耗的最大化减少。

Experiment

实验在多个LLMs(如OPT-6.7B、Llama-2-7B、Llama-3.1-8B、Llama-2-13B)和Stable Diffusion 3.5 Large上进行,覆盖NLP分类和生成任务以及文本到图像生成任务。

Further Thoughts

QZO的内存效率优势令人印象深刻,尤其是在资源受限环境下的潜力。然而,其性能与全精度微调的差距提示我们需要在梯度估计精度上进一步突破。未来的研究可以探索结合更先进的量化方法(如自适应量化)来减少初始量化误差对ZO的影响。此外,针对扩散模型的噪声调度冲突问题,可以尝试设计与扩散过程兼容的扰动策略,例如调整ZO引入的噪声分布以匹配扩散模型的预定噪声调度。另一个有趣的方向是将QZO与其他内存高效方法(如LoRA)结合,探索是否能在保持低内存占用的同时进一步缩小性能差距。最后,QZO在边缘设备上的应用潜力值得深入研究,尤其是在联邦学习或隐私保护场景中,结合隐私保护机器学习技术可能带来新的突破。



Previous Post
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
Next Post
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation