Skip to content
Go back 2503.0184 arXiv logo

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

Published:  at  04:28 PM
86.30 😐

本文提出 EAGLE-3 方法,通过移除特征预测约束和多层特征融合技术,显著提高了大语言模型的推理加速比,并在实验中实现了高达 6.5 倍的无损速度提升。

Large Language Model, Inference Acceleration, Speculative Sampling, Feature Fusion, Token Prediction, Scaling Laws

Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

Peking University, Microsoft Research, University of Waterloo, Vector Institute

Generated by grok-3-mini-latest

Background Problem

大语言模型(LLMs)的顺序生成特性使其推理过程缓慢且成本高昂,影响用户体验和应用部署。投机采样方法已被证明能有效加速推理,但现有方法如EAGLE在增加训练数据时改进有限,这是由于EAGLE的特征预测约束限制了模型的表达能力。本文的工作起点是解决这一问题,通过改进投机采样框架来实现更好的推理加速,同时确保在数据规模扩展时性能持续提升。

Method

Experiment

Further Thoughts

EAGLE-3 的 ‘训练时测试’ 技术可能启发其他 AI 领域,如计算机视觉中的多层特征提取或强化学习中的模拟训练,潜在地减少训练-推理不一致问题;此外,与 DeepSeek-v3 的多 token 预测结合,可能进一步提升模型泛化能力,但需注意特征融合在不同任务中的鲁棒性,以及如何在资源受限设备上优化计算开销。



Previous Post
Towards Reasoning Ability of Small Language Models
Next Post
Base Models Beat Aligned Models at Randomness and Creativity