Skip to content
Go back 2504.17376 arXiv logo

On-Device Qwen2.5: Efficient LLM Inference with Model Compression and Hardware Acceleration

Published:  at  04:29 PM
53.38 🤔

本文提出软件硬件协同优化框架,通过 AWQ 模型压缩和 FPGA 加速在边缘设备上高效部署 Qwen2.5-0.5B 模型,实现 55.1% 的压缩率和 5.1 tokens/s 的推理速度,同时保持较高准确性。

Large Language Model, Model Compression, Hardware Acceleration, Edge Deployment, Efficiency, Transformer

Maoyang Xiang, Ramesh Fernando, Bo Wang

Singapore University of Technology and Design

Generated by grok-3-mini-latest

Background Problem

Transformer-based Large Language Models (LLMs) 在 AI 能力上取得了重大进展,但部署到边缘设备时面临高计算需求、内存带宽限制和能耗挑战。论文的出发点是满足边缘设备上的实时响应需求和隐私保护需要,针对 Qwen2.5-0.5B 模型在 Xilinx Kria KV260 平台上的部署,解决的关键问题是内存容量和带宽限制(例如 Block RAMs 和 URAMs 的限制),以及矩阵乘法(Multiply-and-Accumulate 操作)作为性能瓶颈的问题,这些挑战导致模型参数加载效率低下和计算延迟增加。

Method

核心思想是通过软件硬件协同优化提升 LLM 推理效率。具体方法包括:

Experiment

实验在 Xilinx Kria KV260 边缘平台上进行,使用 WNLI 基准测试数据集,评估指标包括准确率、模型大小和推理吞吐量(tokens/s)。实验设置全面合理,考虑了 accuracy 与 throughput 的权衡,baseline 为未优化的 Qwen2.5-0.5B 模型。结果显示:模型大小从 988 MB 减小到 443.81 MB,压缩率达 55.1%;推理速度从 2.8 tokens/s 提升到 5.1 tokens/s;准确率从 64.79% 略降到 61.97%,但综合 benchmark score (基于公式(1)计算)从 0.4 提高到 0.55,符合预期,证明了方法在保持较高准确性的同时显著提升了性能。公式(1)为:

&+ 0.2 \times \frac{Ratio_{memory}}{\text{MAX}(Ratio_{memory})}\ &+ 0.2 \times \frac{Ratio_{throughput_P}}{\text{MAX}(Ratio_{throughput_P})}\ &+ 0.2 \times \frac{Ratio_{throughput_D}}{\text{MAX}(Ratio_{throughput_D})} \end{aligned} \tag{1}$ 实验还通过 Table I 和 Table II 详细分析了延迟 breakdown 和资源利用率,确保结果的可靠性。 ## Further Thoughts 这项工作突显了 FPGA 在边缘 LLM 推理中的能量效率和可重构性潜力,未来可探索与其他硬件(如 GPU 或 ASIC)的混合部署,或结合更先进的量化技术(如混合精度量化)以进一步减少准确率损失;此外,考虑到相关研究(如 [16] 中 FPGA 空间加速器),可以扩展到更大模型或不同应用场景,如医疗或机器人领域,以提升泛化能力和实时性。


Previous Post
Beyond Public Access in LLM Pre-Training Data
Next Post
ASIDE: Architectural Separation of Instructions and Data in Language Models