Tag: Large Language Model

All the articles with the tag "Large Language Model".

A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)

Published: 3 Jun, 2025 at 11:26 AM

85.88 🤔

本文提出了一种无训练的长度外推方法GALI，通过贪婪局部化位置插值和注意力逻辑值插值，显著提升了大型语言模型在长上下文任务中的稳定性和性能，同时避免了输入长度特定调优的需求。
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation

Published: 1 Jun, 2025 at 11:52 AM

90.28 🤔

本文提出LongReD方法，通过长文本训练、短文本蒸馏和短到长蒸馏的多目标训练策略，有效缓解了长上下文大语言模型在短文本任务上的性能下降，同时保持或提升长文本处理能力。
Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs

Published: 8 May, 2025 at 11:07 AM

94.57 🤔

This paper proposes a three-dimensional taxonomy and develops TTP and HarmFormer tools to filter harmful content from web-scale LLM pretraining datasets, revealing significant toxicity prevalence and persistent safety gaps through benchmarks like HAVOC.
P$^2$ Law: Scaling Law for Post-Training After Model Pruning

Published: 2 Jun, 2025 at 01:15 PM

87.89 🤔

本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律，通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失，并在多种剪枝方法和模型上验证其有效性和部分泛化能力。
Does quantization affect models' performance on long-context tasks?

Published: 2 Jun, 2025 at 11:34 AM

87.84 🤔

本文系统评估了量化对大型语言模型在长上下文任务中的性能影响，发现8-bit量化基本保持准确率（下降约0.8%），而4-bit量化导致显著损失（最高达59%），且影响因模型、任务和语言而异，强调了在长上下文和多语言场景下谨慎应用量化的必要性。

Tag: Large Language Model

A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)

LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation

Towards Safer Pretraining: Analyzing and Filtering Harmful Content in Webscale datasets for Responsible LLMs

P$^2$ Law: Scaling Law for Post-Training After Model Pruning

Does quantization affect models' performance on long-context tasks?