Skip to content
Go back 2505.22334 arXiv logo

Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

Published:  at  11:30 AM
86.44 🤔

本文通过质疑‘aha moment’模式与推理能力提升的相关性,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段方法,在3B和7B规模的多模态大语言模型上显著提升了多模态推理性能,达到开源模型中的最优水平。

Reinforcement Learning, Supervised Learning, Reasoning, Multimodality, Large Language Model

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

Shanghai Jiao Tong University, Shanghai Innovation Institute, Zhongguancun Academy, Lehigh University

Generated by grok-3

Background Problem

近年来,大语言模型(LLMs)在链式推理(Chain-of-Thought, CoT)方面取得了显著进展,强化学习(RL)在其中发挥了关键作用。然而,多模态大语言模型(MLLMs)的推理能力提升仍未被充分探索。现有研究认为RL可以诱导‘aha moment’模式(即模型通过反思进行自我纠正),并将其视为推理能力提升的标志,但本文发现这种模式在RL训练前就已存在,且未必与推理性能提升相关。基于此,论文旨在解决如何通过更系统的方法提升MLLMs的推理能力,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段策略,以在多模态推理任务上取得更好的效果。

Method

本文提出了一种两阶段方法来增强多模态推理能力:

Experiment

实验基于3B和7B规模的Qwen2.5-VL模型进行,数据集包括Geometry3K、MathVista等50k样本的多模态数学推理数据集,评估基准为MathVision、MathVerse、MathVista和We-Math。实验设置分为冷启动SFT阶段和后续RL阶段,与多种开源和闭源模型进行对比。

Further Thoughts

本文提出的两阶段方法(SFT+RL)在多模态推理任务上表现出色,但其适用性是否局限于数学推理领域值得进一步探讨。例如,在需要更复杂语义理解的多模态任务(如视频问答)中,CoT模式的有效性可能受到限制。此外,论文中关于数据质量的发现——即使错误数据也能提升性能——提示我们,推理格式可能比答案正确性更关键,这与近期一些关于提示工程(Prompt Engineering)的研究相呼应,提示结构对模型输出质量的影响可能被低估。未来研究可以探索如何设计更通用的推理格式或模板,以适应不同任务需求。同时,是否可以通过自适应数据生成策略(如动态调整教师模型或采样策略)进一步优化冷启动阶段?另外,GRPO算法在RL阶段的表现依赖于初始策略,是否可以引入多代理(Multi-Agent)协作机制,让多个初始策略相互竞争或协作,以减少对单一冷启动策略的依赖?这可能为多模态推理模型的训练提供新的思路。



Previous Post
MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning
Next Post
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy