Tag: Long Context
All the articles with the tag "Long Context".
-
LoLA: Low-Rank Linear Attention With Sparse Caching
LoLA通过结合线性注意力、滑动窗口和稀疏缓存三种内存形式,在推理时有效缓解记忆冲突,显著提升线性注意力模型在长上下文关联回忆和语言建模任务上的性能,同时保持高效内存使用。
-
SELF: Self-Extend the Context Length With Logistic Growth Function
本文提出SELF方法,通过逻辑增长函数动态调整token分组大小以扩展大型语言模型的上下文长度,在部分长上下文任务上相较Self-Extend提升了性能,但普适性和稳定性仍需验证。
-
Tensor Product Attention Is All You Need
本文提出Tensor Product Attention (TPA),通过上下文相关的张量分解压缩KV缓存,显著减少推理内存占用,并在语言建模任务中优于或匹配MHA、MQA等基线性能。
-
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models
INFTYTHINK通过将长上下文推理分解为迭代短推理片段并结合中间总结,突破了大型语言模型的上下文长度限制,在多个基准上显著提升性能,同时降低了计算成本。
-
ATLAS: Learning to Optimally Memorize the Context at Test Time
本文提出Atlas,一种高容量长期内存模块,通过滑动窗口Omega规则和Muon优化器优化上下文记忆,在语言建模和长上下文理解任务中显著优于Transformer和现代RNN。