Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs
RaCT通过链式思维(CoT)提示和排序偏好优化(RPO)的两阶段训练框架,显著提升了大型语言模型在文本重排序任务中的性能,同时保留了其通用语言建模能力,在多个基准上超越基线模型。
-
Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
本文通过跨任务梯度追踪工具揭示了混合训练通过增加共享参数的数量和重要性,并在关键注意力头中集中这些参数,从而教授知识并提升语言模型的事实回忆泛化能力。
-
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning
本文系统研究了CoT蒸馏中教师模型选择、粒度和格式对小型语言模型(SLMs)推理能力的影响,发现强模型受益于高粒度CoT而弱模型偏好中等粒度,格式影响有限,且教师模型能力并非决定学生表现的唯一因素。
-
UFT: Unifying Supervised and Reinforcement Fine-Tuning
本文提出统一微调(UFT)框架,通过整合监督微调和强化微调,利用提示引导探索和混合目标函数,在不同规模模型和推理任务上均表现出色,并理论上证明了样本复杂度的指数级改进。
-
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More
本文提出MEAP训练范式,通过在下一词预测中引入随机掩码策略,显著提升大型语言模型在关键信息检索和长上下文推理任务中的性能,同时保持计算效率和架构兼容性。