Skip to content
Go back 2504.16266 arXiv logo

TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs

Published:  at  04:29 PM
70.02 🤔

本文提出TeLLMe,一种能量高效的三元LLM FPGA加速器,通过表查找矩阵引擎和反向注意力优化,支持预填充和解码阶段,在7W功率下实现高达9.51 tokens/s吞吐量和低预填充延迟。

Large Language Model, Efficiency, Pre-training, Multimodal Systems, Human-AI Interaction

Ye Qiao, Zhiheng Chen, Yifan Zhang, Yian Wang, Sitao Huang

University of California, Irvine

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)的快速发展使得它们在自然语言处理任务中表现出色,但边缘部署面临巨大挑战,包括高计算需求、高内存使用和能源消耗。低位量化方法(如BitNet和DeepSeek)将权重压缩到1.58位,显著减少了模型大小和能源成本,但边缘设备(如FPGA)仍受限于芯片资源、功率预算和预填充阶段的延迟,而预填充延迟在边缘应用中是用户体验和安全的关键瓶颈。现有工作多关注模型量化或软件加速,但缺乏对极端低位宽LLMs的系统性硬件-软件协同优化,尤其是忽略了预填充阶段的需求,本文的工作起点是开发首个支持预填充和解码两个阶段的FPGA加速器,以实现高效、低延迟的边缘LLM推理。

Method

Experiment

Further Thoughts

这项工作突显了硬件-软件协同优化的重要性,或许可以扩展到其他硬件如ASIC或GPU上,进一步探索不同量化策略(如二元或混合量化)的硬件适应性;同时,结合其他研究(如DeepSeek的混合量化),TeLLMe的预填充优化思路可能启发更泛化的注意力机制设计,以提升长序列模型在资源受限环境中的性能,并推动边缘AI在隐私保护和实时应用中的发展。



Previous Post
The dynamic interplay between in-context and in-weight learning in humans and neural networks
Next Post
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs