Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures
本文提出 CoLM 方法,通过构建小批量核心集匹配大批量梯度,在内存需求减少 2 倍的情况下,使 LLM 微调性能优于 4 倍批大小的常规训练,同时提升收敛速度。
-
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs
RaCT通过链式思维(CoT)提示和排序偏好优化(RPO)的两阶段训练框架,显著提升了大型语言模型在文本重排序任务中的性能,同时保留了其通用语言建模能力,在多个基准上超越基线模型。
-
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
本文通过理论分析揭示LoRA适配器与一步全微调梯度子空间的对齐特性,提出LoRA-One算法,利用谱初始化策略显著提升大型语言模型在自然语言理解、数学推理和代码生成任务上的微调性能,同时保持计算效率。
-
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
本文作为立场论文,主张强化微调(RFT)通过强化学习算法显著提升多模态大语言模型(MLLMs)的推理能力,总结了社区在多模态、任务和领域上的进展,并提出了五个未来研究方向,但缺乏具体方法创新和实验验证。
-
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning
本文提出MELoRA,通过并行堆叠多个小型LoRA模块实现更高的等效秩,以更少的参数在自然语言理解和指令跟随任务上显著优于LoRA。