Tag: Transformer
All the articles with the tag "Transformer".
-
Tensor Product Attention Is All You Need
本文提出Tensor Product Attention (TPA),通过上下文相关的张量分解压缩KV缓存,显著减少推理内存占用,并在语言建模任务中优于或匹配MHA、MQA等基线性能。
-
Lost in Transmission: When and Why LLMs Fail to Reason Globally
本文提出BAPO模型量化大型语言模型(LLMs)内部通信带宽限制,理论证明与实验验证了LLMs在高带宽需求任务上的失败,并展示链式思维(CoT)可降低带宽需求以缓解部分问题。
-
Navigating the Accuracy-Size Trade-Off with Flexible Model Merging
FlexMerge提出了一种无数据的灵活模型合并框架,通过逐块贪婪合并微调模型,支持任意大小模型生成,并在精度-大小权衡上展现出显著的初期精度提升和接近微调精度的潜力。
-
Chain-of-Model Learning for Language Model
本文提出 Chain-of-Model (CoM) 学习范式,通过在 Transformer 架构中引入因果依赖的多尺度表示(Chain-of-Representation),实现高效模型扩展和弹性推理,实验表明 CoLM 系列在性能上与标准 Transformer 相当,同时在预填充速度和灵活性上具有优势。
-
Core Context Aware Transformers for Long Context Language Modeling
本文提出了一种核心上下文感知注意力机制(CCA-Attention),通过全局感知池化和局部保持模块减少长上下文建模中的冗余信息,在保持性能的同时显著提升计算效率,实验表明在 128K 上下文下实现了 7.9 倍加速和约 45% 内存减少。