Tag: Pre-training

All the articles with the tag "Pre-training".

Small Models, Smarter Learning: The Power of Joint Task Training

Published: 28 May, 2025 at 11:21 AM

90.76 🤔

本文通过ListOps数据集上的小型Transformer模型实验，揭示联合任务训练（如MAX+MED+SUM）显著降低学习难度、减少参数需求，并引导模型发现基于数字属性的高效算法，而非单纯记忆符号表。
Activation-Guided Consensus Merging for Large Language Models

Published: 22 May, 2025 at 11:19 AM

90.71 🤔

本文提出Activation-Guided Consensus Merging (ACM)，通过基于激活值互信息（MI）的层级权重系数调整，实现大型语言模型在Long-to-Short推理任务中的高效合并，显著减少输出冗余并提升推理精度，尤其在小规模模型上效果明显。
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Published: 2 Jun, 2025 at 11:32 AM

90.51 🤔

本文通过对92个开源语言模型的元分析，提出了一种超越缩放定律的性能预测框架，揭示了数据组成（如代码比例15-25%）和架构决策对下游任务性能的显著影响，预测精度相对提升3-28%。
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs

Published: 23 May, 2025 at 11:13 AM

90.44 🤔

本文提出滑动层合并（SLM）方法，通过基于CKA相似性动态合并大型语言模型的连续层，实现深度剪枝，在零样本任务和推理效率上显著优于现有方法，同时探索了深度与宽度剪枝结合的潜力。
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation

Published: 1 Jun, 2025 at 11:52 AM

90.28 🤔

本文提出LongReD方法，通过长文本训练、短文本蒸馏和短到长蒸馏的多目标训练策略，有效缓解了长上下文大语言模型在短文本任务上的性能下降，同时保持或提升长文本处理能力。

Tag: Pre-training

Small Models, Smarter Learning: The Power of Joint Task Training

Activation-Guided Consensus Merging for Large Language Models

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs

LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation