Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。
-
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
本文提出LongReD方法,通过长文本训练、短文本蒸馏和短到长蒸馏的多目标训练策略,有效缓解了长上下文大语言模型在短文本任务上的性能下降,同时保持或提升长文本处理能力。
-
Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs
This paper proposes a three-dimensional taxonomy and develops TTP and HarmFormer tools to filter harmful content from web-scale LLM pretraining datasets, revealing significant toxicity prevalence and persistent safety gaps through benchmarks like HAVOC.
-
P$^2$ Law: Scaling Law for Post-Training After Model Pruning
本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律,通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失,并在多种剪枝方法和模型上验证其有效性和部分泛化能力。
-
Does quantization affect models' performance on long-context tasks?
本文系统评估了量化对大型语言模型在长上下文任务中的性能影响,发现8-bit量化基本保持准确率(下降约0.8%),而4-bit量化导致显著损失(最高达59%),且影响因模型、任务和语言而异,强调了在长上下文和多语言场景下谨慎应用量化的必要性。