Tag: Representation Learning
All the articles with the tag "Representation Learning".
-
Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking
本文通过综述、基准测试和提出权重重分解与动量重置两种技术,探索了大型语言模型预训练中的参数和内存高效方法,显著提升了低秩方法的性能并减少内存消耗,但仍无法完全匹配全秩训练的效果。
-
Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking
本文提出Decom-Renorm-Merge(DRM)方法,通过奇异值分解和重归一化构建共享表示空间以合并多任务模型权重,在视觉和语言任务上显著优于现有方法。
-
SeMe: Training-Free Language Model Merging via Semantic Alignment
本文提出SeMe,一种基于语义对齐的无训练、无数据语言模型合并方法,通过潜在空间的语义分解和变换实现参数融合,旨在保留模型行为并稳定内部知识,但缺乏充分的实验验证。
-
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs
本文提出了一种通过中间层表示对齐增强大型语言模型跨语言迁移能力的方法,在微调过程中交替优化任务和对齐目标,并在槽填充、机器翻译等任务中取得了改进,尤其对低资源语言有益。
-
Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
本文通过跨任务梯度追踪工具揭示了混合训练通过增加共享参数的数量和重要性,并在关键注意力头中集中这些参数,从而教授知识并提升语言模型的事实回忆泛化能力。