本文通过ComPABench基准评估视觉-语言模型(VLMs)的组合推理能力,发现强化学习(RL)优于监督微调(SFT)在跨任务和分布外泛化中的表现,并提出RL-Ground方法显著提升多模态组合推理性能。
Reinforcement Learning, Supervised Learning, Multimodal Systems, Reasoning, Vision Foundation Model
Tianle Li, Jihai Zhang, Yongming Rao, Yu Cheng
The Chinese University of Hong Kong, Tencent Hunyuan Research
Generated by grok-3
Background Problem
近年来,大型语言模型(LLMs)通过强化学习(RL)展现了强大的推理能力,但视觉-语言模型(VLMs)是否能通过类似的后训练策略直接继承这种能力仍未被充分探索。本文聚焦于VLMs在跨模态和跨任务的组合推理能力上的表现,特别是在分布外(OOD)条件下的泛化能力。研究试图解决的关键问题是:当前的VLMs是否能够将独立学习到的技能(例如文本推理和视觉识别)整合起来,应对需要多模态或多任务组合的复杂场景?
Method
本文采用了三种后训练策略来评估和提升VLMs的组合推理能力:
- 监督微调(SFT):通过最小化负对数似然(NLL)损失,将预训练的VLM与目标任务分布对齐,输入包括纯文本或图像-文本对,输出包含推理过程和最终答案。
- 强化学习(RL)与GRPO:采用组相对策略优化(GRPO)方法,通过生成多个候选答案并基于任务成功奖励(如答案正确性和格式合规性)进行优化,同时使用KL正则化项防止偏离参考策略。
- SFT初始化的RL(SFT-init RL):从SFT训练的模型开始RL训练,以加速收敛并减少早期不稳定性。
- 创新方法RL-Ground:提出了一种改进策略,结合两个关键组件:1)在推理前强制模型生成视觉内容的文本描述(caption-before-thinking);2)提供中间奖励以监督视觉 grounding 的中间推理步骤(如形状面积计算或距离估计),从而增强视觉到文本的对齐和组合推理能力。
批判性思考:虽然RL-Ground方法在理论上合理,但其依赖于中间奖励的设计可能在实际应用中面临挑战,例如如何确保奖励设计的准确性和普适性?此外,caption-before-thinking可能增加推理时间和计算成本,论文未充分讨论这些潜在问题。
Experiment
实验基于作者提出的ComPABench基准,涵盖跨模态、跨任务和分布外(OOD)组合推理三个维度,使用Qwen2.5-VL-3B和7B模型进行测试。数据集包括纯文本和多模态任务(如几何推理和空间推理),每个任务有训练和测试子集,样本量分别为4K和500。实验设置包括一致的超参数(学习率1e-6,批量大小1)和RL训练中的8个候选答案生成。
结果分析:
- 跨模态组合(RQ1):纯文本训练的模型在多模态任务上表现极差(准确率下降至4.2%-16.2%),表明文本推理能力无法直接泛化到视觉输入。RL相较SFT略有提升,但仍远低于纯文本表现。
- 跨任务组合(RQ2):在纯文本设置下,RL显著优于SFT(准确率从0.6%-2.2%提升至81.2%-93%),但在多模态设置下,两种方法均表现不佳。RL-Ground通过视觉到文本对齐和中间奖励显著提升多模态组合推理能力(准确率达28.6%-52.8%)。
- 分布外泛化(RQ3):RL在OOD任务上表现出较强的泛化能力,尤其是在较大模型规模(7B)下,而SFT表现不稳定。RL-Ground在所有OOD任务中均取得最佳性能。
批判性思考:实验设计较为全面,覆盖了多个维度,但任务复杂度可能不足以反映真实世界场景。此外,数据集的多样性有限,可能导致结果的普适性受限。RL-Ground的性能提升显著,但其计算成本和实际部署的可行性未被充分探讨,实验结果可能存在过拟合特定任务的风险。
Further Thoughts
本文提出的RL-Ground方法通过视觉到文本的对齐和中间奖励机制为提升VLMs的组合推理能力提供了有价值的思路,但其在更复杂多模态场景(如包含音频或视频)中的表现仍需进一步验证。此外,是否可以通过结合其他领域的研究(如认知科学中的人类推理机制)来设计更自然的视觉 grounding 策略?与此同时,RL-Ground的计算成本可能限制其在大规模应用中的可行性,未来可以探索轻量化的中间奖励设计或自适应奖励机制,以平衡性能和效率。另一个值得思考的方向是,本文的研究是否可以扩展到多智能体系统中,探索多模态推理在多智能体协作中的作用,例如在机器人或自动驾驶领域中,不同模态信息的组合推理可能对决策至关重要。