Tag: Representation Learning
All the articles with the tag "Representation Learning".
-
Core Context Aware Transformers for Long Context Language Modeling
本文提出了一种核心上下文感知注意力机制(CCA-Attention),通过全局感知池化和局部保持模块减少长上下文建模中的冗余信息,在保持性能的同时显著提升计算效率,实验表明在 128K 上下文下实现了 7.9 倍加速和约 45% 内存减少。
-
Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains
本文提出Compressed Latent Reasoning (CoLaR)框架,通过潜在空间动态压缩和强化学习优化大型语言模型的推理过程,在数学推理任务中显著提升效率并保持较高准确率。
-
Large Language Models are Locally Linear Mappings
本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法,揭示了模型内部低秩语义结构,并初步探索了输出引导应用,但泛化性和实用性受限。
-
Let's Predict Sentence by Sentence
本文提出了一种句子级推理框架,通过自回归预测连续句子嵌入,将预训练语言模型提升到抽象推理空间,上下文嵌入在连续推理模式下与Chain-of-Thought (CoT) 表现相当,同时平均将推理计算成本降低一半。
-
Improving Multilingual Language Models by Aligning Representations through Steering
本文提出了一种通过表示引导调整大型语言模型层级表示的方法,以提升多语言任务性能,实验显示其在多种任务中优于基本提示并接近翻译基线,但对英语任务有负面影响且对低资源语言改进有限。