Tag: Large Language Model
All the articles with the tag "Large Language Model".
-
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。
-
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning
本文通过理论分析和Re-distillation技术,揭示了小规模SFT在R1风格RL中的效率瓶颈,并以极少样本(<1K)在K&K和MATH数据集上接近RL性能,显著提升了数据效率。
-
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
本文提出LongReD方法,通过长文本训练、短文本蒸馏和短到长蒸馏的多目标训练策略,有效缓解了长上下文大语言模型在短文本任务上的性能下降,同时保持或提升长文本处理能力。
-
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs
本文通过模块化方法,利用大型语言模型参数在数学推理和多语言能力上的分离性,提出Layer-Swapping等策略,在低资源语言跨语言迁移中显著优于非模块化基线,尤其在数据受限场景下表现最佳。
-
Does quantization affect models' performance on long-context tasks?
本文系统评估了量化对大型语言模型在长上下文任务中的性能影响,发现8-bit量化基本保持准确率(下降约0.8%),而4-bit量化导致显著损失(最高达59%),且影响因模型、任务和语言而异,强调了在长上下文和多语言场景下谨慎应用量化的必要性。