Tag: Pre-training
All the articles with the tag "Pre-training".
-
Small Models, Smarter Learning: The Power of Joint Task Training
本文通过ListOps数据集上的小型Transformer模型实验,揭示联合任务训练(如MAX+MED+SUM)显著降低学习难度、减少参数需求,并引导模型发现基于数字属性的高效算法,而非单纯记忆符号表。
-
Activation-Guided Consensus Merging for Large Language Models
本文提出Activation-Guided Consensus Merging (ACM),通过基于激活值互信息(MI)的层级权重系数调整,实现大型语言模型在Long-to-Short推理任务中的高效合并,显著减少输出冗余并提升推理精度,尤其在小规模模型上效果明显。
-
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
本文通过对92个开源语言模型的元分析,提出了一种超越缩放定律的性能预测框架,揭示了数据组成(如代码比例15-25%)和架构决策对下游任务性能的显著影响,预测精度相对提升3-28%。
-
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs
本文提出滑动层合并(SLM)方法,通过基于CKA相似性动态合并大型语言模型的连续层,实现深度剪枝,在零样本任务和推理效率上显著优于现有方法,同时探索了深度与宽度剪枝结合的潜力。
-
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation
本文提出LongReD方法,通过长文本训练、短文本蒸馏和短到长蒸馏的多目标训练策略,有效缓解了长上下文大语言模型在短文本任务上的性能下降,同时保持或提升长文本处理能力。