Tag: Pre-training
All the articles with the tag "Pre-training".
-
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
本文系统揭示了自注意力模块中大规模值在LLM上下文知识理解中的关键作用,并通过实验证明其源于旋转位置编码(RoPE),为模型优化和量化策略提供新洞见。
-
Towards Reasoning Ability of Small Language Models
本文通过系统基准测试72个SLMs,证明小型语言模型可以通过结构化训练和压缩技术实现与大型模型相当的推理能力,从而挑战了规模依赖的传统观点。