Tag: Large Language Model

All the articles with the tag "Large Language Model".

Does quantization affect models' performance on long-context tasks?

Published: 2 Jun, 2025 at 11:34 AM

87.84 🤔

本文系统评估了量化对大型语言模型在长上下文任务中的性能影响，发现8-bit量化基本保持准确率（下降约0.8%），而4-bit量化导致显著损失（最高达59%），且影响因模型、任务和语言而异，强调了在长上下文和多语言场景下谨慎应用量化的必要性。
LoKI: Low-damage Knowledge Implanting of Large Language Models

Published: 2 Jun, 2025 at 11:23 AM

87.82 🤔

本文提出LoKI，一种参数高效微调框架，通过分析Transformer FFN层的知识存储机制和层平衡参数选择策略，在下游任务适应和预训练知识保留之间实现了竞争性平衡。
LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades

Published: 22 May, 2025 at 11:17 AM

89.99 🤔

本文提出LoRASuite，一种针对大型语言模型升级的模块化方法，通过转换矩阵、层映射和注意力头映射高效适配LoRA权重，并在数学与常识任务上显著优于小规模LoRA微调，甚至在某些场景下超越全规模重新训练，同时大幅降低内存和时间消耗。
Large Language Models are Locally Linear Mappings

Published: 3 Jun, 2025 at 11:44 AM

85.46 🤔

本文提出了一种通过分离Jacobian将大型语言模型在特定输入点转化为近乎精确局部线性系统的方法，揭示了模型内部低秩语义结构，并初步探索了输出引导应用，但泛化性和实用性受限。
SeMe: Training-Free Language Model Merging via Semantic Alignment

Published: 31 May, 2025 at 11:16 AM

89.79 🤔

本文提出SeMe，一种基于语义对齐的无训练、无数据语言模型合并方法，通过潜在空间的语义分解和变换实现参数融合，旨在保留模型行为并稳定内部知识，但缺乏充分的实验验证。

Tag: Large Language Model

Does quantization affect models' performance on long-context tasks?

LoKI: Low-damage Knowledge Implanting of Large Language Models

LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades

Large Language Models are Locally Linear Mappings

SeMe: Training-Free Language Model Merging via Semantic Alignment