Skip to content
Go back 2504.02263 arXiv logo

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism

Published:  at  04:30 PM
70.65 🤔

本文提出MegaScale-Infer系统,通过分离注意力模块和FFN模块的并行策略以及高效M2N通信库,优化大规模MoE模型的推理效率,实现高达1.90倍的吞吐量提升。

Large Language Model, Efficiency, Multimodality, Pre-training, Fine-tuning, Human-AI Interaction

Ruidong Zhu, Ziheng Jiang, Chao Jin, Peng Wu, Cesar A. Stuardo, Dongyang Wang, Xinlei Zhang, Huaping Zhou, Haoran Wei, Yang Cheng, Jianzhe Xiao, Xinyi Zhang, Lingjun Liu, Haibin Lin, Li-Wen Chang, Jianxi Ye, Xiao Yu, Xuanzhe Liu, Xin Jin, Xin Liu

ByteDance Seed, Peking University

Generated by grok-3-mini-latest

Background Problem

混合专家(MoE)模型在扩展大型语言模型(LLM)时展示了巨大的潜力,能够提升性能并降低计算复杂度。然而,在实际推理场景中,MoE的稀疏激活架构导致前馈网络(FFN)从计算密集型转变为内存密集型,从而显著降低GPU利用率并增加运营成本。具体问题包括:推理过程中注意力模块的内存密集性导致低利用率,而FFN模块在MoE稀疏性下无法充分利用GPU计算能力;此外,批量大小受限于GPU内存和响应延迟约束,进一步恶化了效率问题。本文的工作起点是针对这些挑战,优化大规模MoE模型的推理效率,以减少不必要的计算成本。

Method

Experiment

Further Thoughts

这项工作突出了资源分离在AI推理中的潜力,或许可以扩展到其他稀疏模型或结合联邦学习场景,以进一步减少跨设备通信开销;同时,异构部署策略可能启发边缘计算中的LLM服务优化,平衡延迟和成本;此外,与现有的推理加速框架(如vLLM)整合,可能实现更全面的性能提升,但需注意在动态工作负载下的负载均衡挑战。



Previous Post
CCSK:Cognitive Convection of Self-Knowledge Based Retrieval Augmentation for Large Language Models
Next Post
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks