Tag: Fine-tuning

All the articles with the tag "Fine-tuning".

Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models

Published: 2 Jun, 2025 at 11:33 AM

85.98 🤔

本文作为立场论文，主张强化微调（RFT）通过强化学习算法显著提升多模态大语言模型（MLLMs）的推理能力，总结了社区在多模态、任务和领域上的进展，并提出了五个未来研究方向，但缺乏具体方法创新和实验验证。
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Published: 21 May, 2025 at 11:23 AM

85.92 🤔

本文揭示强化学习（RL）微调大型语言模型（LLMs）时仅更新5%-30%参数子网络的现象，通过实验验证仅微调子网络即可恢复全微调性能，并指出训练数据分布接近策略是稀疏性主因，为高效微调策略提供新思路。
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

Published: 25 May, 2025 at 11:47 AM

85.89 🤔

ABBA 提出了一种新型参数高效微调方法，通过两个独立低秩矩阵的哈达玛积重新参数化权重更新，在保持参数效率的同时显著提升表达能力和性能，实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
Scaling Reasoning without Attention

Published: 4 Jun, 2025 at 11:25 AM

85.88 🤔

本文提出 PROMPTCOT-MAMBA，一种基于 Mamba-2 状态空间模型的无注意力语言模型，通过两阶段课程微调和 PROMPTCOT 合成范式，在数学和代码推理任务上超越同规模甚至更大规模的 Transformer 模型，同时实现固定内存和高效推理。
Sparsity May Be All You Need: Sparse Random Parameter Adaptation

Published: 25 May, 2025 at 11:51 AM

85.87 🤔

本文提出SpaRTA方法，通过随机选择一小部分预训练模型参数进行微调，实现参数高效性，并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。

Tag: Fine-tuning

Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models

Scaling Reasoning without Attention

Sparsity May Be All You Need: Sparse Random Parameter Adaptation