Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation
ShareLoRA通过在模型层间共享低秩矩阵A或B,显著减少可训练参数量(相较LoRA减少44%-96%),并在多种模型和任务中保持甚至超越LoRA的性能,展现出高效性、适应性和跨域鲁棒性。
-
P$^2$ Law: Scaling Law for Post-Training After Model Pruning
本文提出P² Law作为剪枝后大型语言模型后训练的首个缩放定律,通过结合模型规模、后训练数据量、剪枝率和初始损失预测后训练损失,并在多种剪枝方法和模型上验证其有效性和部分泛化能力。
-
Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach
本文提出GRADEX算法,通过一阶近似快速估计语言模型微调损失,实现子集选择的30倍以上加速,并在指令微调和思维链微调任务中比基线方法提升高达3.8%的性能。
-
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
本文通过实验验证了长上下文能力与推理性能的正相关,提出在监督微调前增强长上下文能力的训练策略,并在数学推理基准上显著提升了模型性能。
-
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
本文提出EMORL框架,通过集成学习分别训练单目标模型并在隐藏状态层聚合,结合分层网格搜索优化权重,在咨询反思生成任务中实现了与传统方法相当的性能,同时显著提升了训练效率、可扩展性和解释性。