Skip to content
Go back 2505.19406 arXiv logo

Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model

Published:  at  11:42 AM
85.21 🤔

本文通过ComPABench基准评估视觉-语言模型(VLMs)的组合推理能力,发现强化学习(RL)优于监督微调(SFT)在跨任务和分布外泛化中的表现,并提出RL-Ground方法显著提升多模态组合推理性能。

Reinforcement Learning, Supervised Learning, Multimodal Systems, Reasoning, Vision Foundation Model

Tianle Li, Jihai Zhang, Yongming Rao, Yu Cheng

The Chinese University of Hong Kong, Tencent Hunyuan Research

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)通过强化学习(RL)展现了强大的推理能力,但视觉-语言模型(VLMs)是否能通过类似的后训练策略直接继承这种能力仍未被充分探索。本文聚焦于VLMs在跨模态和跨任务的组合推理能力上的表现,特别是在分布外(OOD)条件下的泛化能力。研究试图解决的关键问题是:当前的VLMs是否能够将独立学习到的技能(例如文本推理和视觉识别)整合起来,应对需要多模态或多任务组合的复杂场景?

Method

本文采用了三种后训练策略来评估和提升VLMs的组合推理能力:

批判性思考:虽然RL-Ground方法在理论上合理,但其依赖于中间奖励的设计可能在实际应用中面临挑战,例如如何确保奖励设计的准确性和普适性?此外,caption-before-thinking可能增加推理时间和计算成本,论文未充分讨论这些潜在问题。

Experiment

实验基于作者提出的ComPABench基准,涵盖跨模态、跨任务和分布外(OOD)组合推理三个维度,使用Qwen2.5-VL-3B和7B模型进行测试。数据集包括纯文本和多模态任务(如几何推理和空间推理),每个任务有训练和测试子集,样本量分别为4K和500。实验设置包括一致的超参数(学习率1e-6,批量大小1)和RL训练中的8个候选答案生成。

结果分析

批判性思考:实验设计较为全面,覆盖了多个维度,但任务复杂度可能不足以反映真实世界场景。此外,数据集的多样性有限,可能导致结果的普适性受限。RL-Ground的性能提升显著,但其计算成本和实际部署的可行性未被充分探讨,实验结果可能存在过拟合特定任务的风险。

Further Thoughts

本文提出的RL-Ground方法通过视觉到文本的对齐和中间奖励机制为提升VLMs的组合推理能力提供了有价值的思路,但其在更复杂多模态场景(如包含音频或视频)中的表现仍需进一步验证。此外,是否可以通过结合其他领域的研究(如认知科学中的人类推理机制)来设计更自然的视觉 grounding 策略?与此同时,RL-Ground的计算成本可能限制其在大规模应用中的可行性,未来可以探索轻量化的中间奖励设计或自适应奖励机制,以平衡性能和效率。另一个值得思考的方向是,本文的研究是否可以扩展到多智能体系统中,探索多模态推理在多智能体协作中的作用,例如在机器人或自动驾驶领域中,不同模态信息的组合推理可能对决策至关重要。



Previous Post
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance
Next Post
Scalable Complexity Control Facilitates Reasoning Ability of LLMs