Tag: Pre-training
All the articles with the tag "Pre-training".
-
Pretraining Language Models to Ponder in Continuous Space
本文提出Pondering Language Model,通过在预训练阶段引入自监督的连续空间深思机制,显著提升语言模型在语言建模和下游任务上的性能,PonderingPythia-1B接近TinyLlama-1.1B的效果。
-
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning
本文提出Perturb-and-Merge (P&M)框架,通过训练时任务向量扰动和推理时模型凸组合合并,结合LoRA实现参数高效持续学习,在多个基准数据集上显著缓解灾难性遗忘并提升性能。
-
RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models
本文提出了一种名为RepCali的微调方法,通过在潜在空间中校准预训练语言模型编码器输出,显著提升了25个模型在8个下游任务上的性能,同时仅增加0-0.8%的参数。
-
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
本文通过理论分析揭示LoRA适配器与一步全微调梯度子空间的对齐特性,提出LoRA-One算法,利用谱初始化策略显著提升大型语言模型在自然语言理解、数学推理和代码生成任务上的微调性能,同时保持计算效率。
-
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models
EfficientQAT提出了一种高效的量化感知训练框架,通过块级全参数训练(Block-AP)和端到端量化参数训练(E2E-QP),在低比特场景下显著提升大型语言模型的量化性能,同时大幅降低训练资源需求。