Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
RWKV-X: A Linear Complexity Hybrid Language Model
本文提出RWKV-X,一种线性复杂度的混合语言模型,通过结合RWKV和稀疏注意力机制,提升长上下文建模能力,同时保持高效性和短上下文性能。
-
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
论文通过大规模实验分析了Transformer LLMs中稀疏注意力的效率-准确性权衡,揭示了长序列下更大稀疏模型的优势,并建立了可推广的缩放定律。
-
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
本文系统揭示了自注意力模块中大规模值在LLM上下文知识理解中的关键作用,并通过实验证明其源于旋转位置编码(RoPE),为模型优化和量化策略提供新洞见。
-
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models
本文提出 Think, Prune, Train 框架,通过迭代监督微调和基于正确性的数据修剪,实现模型在不增加规模的情况下提升推理能力,避免模型坍缩。
-
Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability
本文通过引入批评-修订提示和比较多任务训练、反事实训练及其结合的方法,系统评估了知识蒸馏对语言模型性能和可解释性的影响,发现多任务训练在性能上表现出色,而结合批评-修订提示的方法显著提升了可解释性。