Tag: Pre-training
All the articles with the tag "Pre-training".
-
Block Circulant Adapter for Large Language Models
本文提出块循环适配器方法,通过利用块循环矩阵和FFT优化LLM的微调过程,显著降低存储和计算成本,同时通过学习率调整确保训练稳定。
-
LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
本文提出LZ惩罚方法,基于LZ77压缩算法的码长变化动态调整自回归语言模型的采样分布,在贪婪解码下有效消除退化重复,同时保持推理基准性能。
-
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism
本文提出MegaScale-Infer系统,通过分离注意力模块和FFN模块的并行策略以及高效M2N通信库,优化大规模MoE模型的推理效率,实现高达1.90倍的吞吐量提升。
-
TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs
本文提出TeLLMe,一种能量高效的三元LLM FPGA加速器,通过表查找矩阵引擎和反向注意力优化,支持预填充和解码阶段,在7W功率下实现高达9.51 tokens/s吞吐量和低预填充延迟。
-
When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars
本论文通过上下文无关文法合成数据研究了元数据条件化在语言模型预训练中的影响,发现其对长提示任务有益但对短提示任务有害,揭示了潜在语义推断的权衡。