本文提出软件硬件协同优化框架,通过 AWQ 模型压缩和 FPGA 加速在边缘设备上高效部署 Qwen2.5-0.5B 模型,实现 55.1% 的压缩率和 5.1 tokens/s 的推理速度,同时保持较高准确性。
Large Language Model, Model Compression, Hardware Acceleration, Edge Deployment, Efficiency, Transformer
Maoyang Xiang, Ramesh Fernando, Bo Wang
Singapore University of Technology and Design
Generated by grok-3-mini-latest
Background Problem
Transformer-based Large Language Models (LLMs) 在 AI 能力上取得了重大进展,但部署到边缘设备时面临高计算需求、内存带宽限制和能耗挑战。论文的出发点是满足边缘设备上的实时响应需求和隐私保护需要,针对 Qwen2.5-0.5B 模型在 Xilinx Kria KV260 平台上的部署,解决的关键问题是内存容量和带宽限制(例如 Block RAMs 和 URAMs 的限制),以及矩阵乘法(Multiply-and-Accumulate 操作)作为性能瓶颈的问题,这些挑战导致模型参数加载效率低下和计算延迟增加。
Method
核心思想是通过软件硬件协同优化提升 LLM 推理效率。具体方法包括:
- 软件优化:采用 Activation-aware Weight Quantization (AWQ) 模型压缩技术,设计自定义的 weight packing scheme,将量化权重、缩放因子和零值打包成 AWQ MACRO 块,提高内存带宽利用率;使用 Group Size (GS) 为 64 的分组机制,减少量化误差。
- 硬件优化:利用 FPGA 的并行性和 Xilinx Kria KV260 的 ARM Cortex-A53 CPU 与可重构逻辑,设计加速器,包括 4 个 AXI 通道、unpacking unit 和 8×8 处理元素 (PE) 阵列,实现矩阵乘法的流水线执行和并行计算;加速器在 PL 侧进行权重解量化、MAC 操作,并在 PS 侧处理非线性操作,如 Rotary Positional Encoding 和 SiLU 激活函数。整体方法不依赖模型重新训练,仅通过推理阶段的优化来平衡准确性和性能。
Experiment
实验在 Xilinx Kria KV260 边缘平台上进行,使用 WNLI 基准测试数据集,评估指标包括准确率、模型大小和推理吞吐量(tokens/s)。实验设置全面合理,考虑了 accuracy 与 throughput 的权衡,baseline 为未优化的 Qwen2.5-0.5B 模型。结果显示:模型大小从 988 MB 减小到 443.81 MB,压缩率达 55.1%;推理速度从 2.8 tokens/s 提升到 5.1 tokens/s;准确率从 64.79% 略降到 61.97%,但综合 benchmark score (基于公式(1)计算)从 0.4 提高到 0.55,符合预期,证明了方法在保持较高准确性的同时显著提升了性能。公式(1)为:
&+ 0.2 \times \frac{Ratio_{memory}}{\text{MAX}(Ratio_{memory})}\ &+ 0.2 \times \frac{Ratio_{throughput_P}}{\text{MAX}(Ratio_{throughput_P})}\ &+ 0.2 \times \frac{Ratio_{throughput_D}}{\text{MAX}(Ratio_{throughput_D})} \end{aligned} \tag{1}$ 实验还通过 Table I 和 Table II 详细分析了延迟 breakdown 和资源利用率,确保结果的可靠性。 ## Further Thoughts 这项工作突显了 FPGA 在边缘 LLM 推理中的能量效率和可重构性潜力,未来可探索与其他硬件(如 GPU 或 ASIC)的混合部署,或结合更先进的量化技术(如混合精度量化)以进一步减少准确率损失;此外,考虑到相关研究(如 [16] 中 FPGA 空间加速器),可以扩展到更大模型或不同应用场景,如医疗或机器人领域,以提升泛化能力和实时性。