Tag: Fine-tuning
All the articles with the tag "Fine-tuning".
-
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models
本文作为立场论文,主张强化微调(RFT)通过强化学习算法显著提升多模态大语言模型(MLLMs)的推理能力,总结了社区在多模态、任务和领域上的进展,并提出了五个未来研究方向,但缺乏具体方法创新和实验验证。
-
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
本文揭示强化学习(RL)微调大型语言模型(LLMs)时仅更新5%-30%参数子网络的现象,通过实验验证仅微调子网络即可恢复全微调性能,并指出训练数据分布接近策略是稀疏性主因,为高效微调策略提供新思路。
-
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
-
Scaling Reasoning without Attention
本文提出 PROMPTCOT-MAMBA,一种基于 Mamba-2 状态空间模型的无注意力语言模型,通过两阶段课程微调和 PROMPTCOT 合成范式,在数学和代码推理任务上超越同规模甚至更大规模的 Transformer 模型,同时实现固定内存和高效推理。
-
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
本文提出SpaRTA方法,通过随机选择一小部分预训练模型参数进行微调,实现参数高效性,并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。