本文通过质疑‘aha moment’模式与推理能力提升的相关性,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段方法,在3B和7B规模的多模态大语言模型上显著提升了多模态推理性能,达到开源模型中的最优水平。
Reinforcement Learning, Supervised Learning, Reasoning, Multimodality, Large Language Model
Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang
Shanghai Jiao Tong University, Shanghai Innovation Institute, Zhongguancun Academy, Lehigh University
Generated by grok-3
Background Problem
近年来,大语言模型(LLMs)在链式推理(Chain-of-Thought, CoT)方面取得了显著进展,强化学习(RL)在其中发挥了关键作用。然而,多模态大语言模型(MLLMs)的推理能力提升仍未被充分探索。现有研究认为RL可以诱导‘aha moment’模式(即模型通过反思进行自我纠正),并将其视为推理能力提升的标志,但本文发现这种模式在RL训练前就已存在,且未必与推理性能提升相关。基于此,论文旨在解决如何通过更系统的方法提升MLLMs的推理能力,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段策略,以在多模态推理任务上取得更好的效果。
Method
本文提出了一种两阶段方法来增强多模态推理能力:
- 冷启动阶段(SFT):通过监督微调(Supervised Fine-Tuning, SFT)为模型初始化高质量的推理模式。具体方法包括从大型模型(如Qwen2.5-VL-32B)中蒸馏生成链式推理(CoT)数据,并探索多种CoT模式,如Distilled-CoT、Reflection-CoT、Caption-CoT和Self-Critic-CoT。这些模式通过拒绝采样(Rejection Sampling)生成,旨在为模型提供结构化的推理基础。
- 强化学习阶段(RL):在冷启动后,采用GRPO(Grouped Reward Policy Optimization)算法进一步激活和优化模型的推理能力。GRPO通过组归一化奖励估计优势,避免使用单独的价值模型,并通过KL散度约束限制模型偏离参考模型。 批判性思考:虽然两阶段方法在理论上合理,但SFT阶段对教师模型质量的依赖可能限制其普适性。此外,多种CoT模式的探索虽然全面,但论文未深入分析为何某些模式(如Distilled-CoT)效果更佳,缺乏对模式内在机制的解释。RL阶段使用的GRPO算法计算效率较高,但其对初始策略(即SFT结果)的依赖可能导致次优解,尤其是在冷启动数据质量不高时。
Experiment
实验基于3B和7B规模的Qwen2.5-VL模型进行,数据集包括Geometry3K、MathVista等50k样本的多模态数学推理数据集,评估基准为MathVision、MathVerse、MathVista和We-Math。实验设置分为冷启动SFT阶段和后续RL阶段,与多种开源和闭源模型进行对比。
- 结果:7B模型在所有基准上平均提升6.19分(如MathVista从66.3%提升至73.4%),超越同规模开源模型及部分更大模型(如GPT-4o);3B模型平均提升10.84分,性能接近甚至超过部分7B模型。消融研究表明,SFT+RL组合优于单独的SFT或RL,且冷启动策略(如32B蒸馏数据)对最终性能有显著影响。
- 分析与批判:实验设置较为全面,涵盖多种基准和模型规模,结果显示方法有效性。然而,实验未充分探讨数据质量对结果的影响边界,例如错误数据为何仍能提升性能,是否与推理格式而非内容相关?此外,基准选择偏向数学推理,缺乏对其他多模态任务(如图像描述)的测试,可能限制方法普适性的验证。有效秩(effective rank)提升被用作知识增加的指标,但其与推理能力提升的相关性未被充分论证,可能只是参数规模或数据量的反映。
Further Thoughts
本文提出的两阶段方法(SFT+RL)在多模态推理任务上表现出色,但其适用性是否局限于数学推理领域值得进一步探讨。例如,在需要更复杂语义理解的多模态任务(如视频问答)中,CoT模式的有效性可能受到限制。此外,论文中关于数据质量的发现——即使错误数据也能提升性能——提示我们,推理格式可能比答案正确性更关键,这与近期一些关于提示工程(Prompt Engineering)的研究相呼应,提示结构对模型输出质量的影响可能被低估。未来研究可以探索如何设计更通用的推理格式或模板,以适应不同任务需求。同时,是否可以通过自适应数据生成策略(如动态调整教师模型或采样策略)进一步优化冷启动阶段?另外,GRPO算法在RL阶段的表现依赖于初始策略,是否可以引入多代理(Multi-Agent)协作机制,让多个初始策略相互竞争或协作,以减少对单一冷启动策略的依赖?这可能为多模态推理模型的训练提供新的思路。