Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
Does quantization affect models' performance on long-context tasks?
本文系统评估了量化对大型语言模型在长上下文任务中的性能影响,发现8-bit量化基本保持准确率(下降约0.8%),而4-bit量化导致显著损失(最高达59%),且影响因模型、任务和语言而异,强调了在长上下文和多语言场景下谨慎应用量化的必要性。
-
LoKI: Low-damage Knowledge Implanting of Large Language Models
本文提出LoKI,一种参数高效微调框架,通过分析Transformer FFN层的知识存储机制和层平衡参数选择策略,在下游任务适应和预训练知识保留之间实现了竞争性平衡。
-
LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades
本文提出LoRASuite,一种针对大型语言模型升级的模块化方法,通过转换矩阵、层映射和注意力头映射高效适配LoRA权重,并在数学与常识任务上显著优于小规模LoRA微调,甚至在某些场景下超越全规模重新训练,同时大幅降低内存和时间消耗。
-
Large Language Models are Locally Linear Mappings
本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法,揭示了模型内部低秩语义结构,并初步探索了输出引导应用,但泛化性和实用性受限。
-
SeMe: Training-Free Language Model Merging via Semantic Alignment
本文提出SeMe,一种基于语义对齐的无训练、无数据语言模型合并方法,通过潜在空间的语义分解和变换实现参数融合,旨在保留模型行为并稳定内部知识,但缺乏充分的实验验证。