Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models
本文通过探测和激活编辑实验,系统研究了语言模型内部信念表征的涌现、结构、鲁棒性和可增强性,发现表征随模型规模和微调改善,具有结构化特征但对提示变化脆弱,并可通过对比激活添加(CAA)显著提升ToM性能。
-
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
-
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。
-
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
本文提出SpaRTA方法,通过随机选择一小部分预训练模型参数进行微调,实现参数高效性,并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。
-
Language Model Distillation: A Temporal Difference Imitation Learning Perspective
本文提出了一种基于时间差分学习的模型蒸馏框架,利用大型语言模型输出分布的稀疏性,通过top-p候选集缩减动作空间,在指令跟随任务中实现了性能提升和计算效率的改进。