Posts
All the articles I've posted.
-
QKV Projections Require a Fraction of Their Memory
本文提出PAMM方法,通过随机选择代表性token近似输入张量,大幅减少注意力机制中Q、K、V投影的内存占用(高达512倍),同时在预训练和微调中基本维持模型性能。
-
One Task Vector is not Enough: A Large-Scale Study for In-Context Learning
本文通过大规模数据集 QUITEAFEW 研究上下文学习中任务向量的作用,发现其在中间层表现最佳但对复杂任务支持不足,提出复杂任务依赖多个子任务向量的分布式表示假设。
-
Budget-Adaptive Adapter Tuning in Orthogonal Subspaces for Continual Learning in LLMs
本文提出OA-Adapter,一种用于大型语言模型持续学习的新型参数高效方法,通过单阶段端到端训练结合动态预算分配与正交子空间学习,在标准基准上实现更高准确率并减少58.5%的参数使用。
-
Contrastive Learning for Task-Independent SpeechLLM-Pretraining
本文提出了一种基于对比学习的SpeechLLM任务无关预训练方法,通过对齐语音和文本表示,在低资源场景下显著提升了ASR、语音翻译和语音问答任务的性能,并超越了多个专门模型。
-
Mixup Model Merge: Enhancing Model Merging Performance through Randomized Linear Interpolation
本文提出Mixup Model Merge (M³) 方法,通过在参数空间中随机线性插值并利用Beta分布采样贡献比例,显著提升了大语言模型合并的性能、分布外鲁棒性和对抗鲁棒性。