Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels¶
会议: CVPR 2025
arXiv: 2505.13788
代码: 无
领域: 多模态VLM
关键词: 视觉定位、指代分割、数据集构建、复杂指令、像素级grounding
一句话总结¶
构建了Ground-V,一个包含50万指令-分割对的数据集,系统性解决真实世界指代分割中的五大挑战(幻觉引用、多对象、推理、多粒度、部件引用),训练后的VLM在gRefCOCO上N-Acc超越前SOTA 20%以上。
研究背景与动机¶
领域现状: 大型视觉语言模型(VLMs)已在通用多模态任务中展现强大能力。近期工作(LISA、PSALM等)通过在VLM中学习特殊的grounding token并与SAM配合,开始具备了推理驱动的分割能力。
现有痛点: 1. 当前VLM分割模型在复杂指令下极不可靠——例如一张包含多种颜色苹果的图中,要求分割红色苹果时会错误地包含其他颜色 2. 指令越复杂(如"分割陶瓷碗旁边被咬过的红苹果"),模型越容易忽略上下文细节 3. 根本原因在于训练数据:大多grounding数据集仅包含简单直接的引用表达,与人类丰富的自然语言描述之间存在显著鸿沟
核心矛盾: VLM具备强大的多模态理解能力,但受限于训练数据的简单性,无法将理解能力转化为复杂指令下的精确像素级定位。
本文目标 通过规模化构建面向复杂场景的指令-分割数据,弥合VLM的理解能力与grounding精度之间的鸿沟。
切入角度: 系统性地识别真实世界指代分割中的五大关键挑战,并为每个维度设计自动化的数据生成流程。
核心 idea: 用知识蒸馏(Claude作为teacher VLM)自动生成覆盖五大挑战维度的高质量指令-分割数据集,直接接入现有模型训练即可大幅提升性能。
方法详解¶
整体框架¶
Ground-V的核心是一个自动化数据生成工作流:(1) 识别五大真实世界挑战;(2) 为每个维度设计few-shot prompt;(3) 利用Claude 3 Sonnet生成指令-回答对并关联已有的像素级标注(COCO 2017);(4) 人工标注验证测试集。总计生成50K图像、约48万指令-分割对。
关键设计¶
-
五大挑战维度的数据设计:
- 功能:系统性覆盖真实世界指代分割的关键难点
- 核心思路:
- 多粒度:同一对象可在不同抽象层级描述("柯基"→"狗"→"宠物"→"动物")
- 多对象:同时引用5个以上对象的指令
- 幻觉引用:描述图中不存在的对象/属性/关系,模型应拒绝分割
- 推理:需要常识推理的抽象指令(如"富含抗氧化剂的水果")
- 部件引用:对象的组成部件(如微波炉的按钮)
- 设计动机:覆盖从简单到复杂、从具体到抽象的完整指令谱系
-
自动化数据生成管道:
- 功能:大规模生成带像素标注的指令-回答对
- 核心思路:为每个维度手工制作3-shot示例,用Claude 3 Sonnet根据查询图像生成新的指令-回答对,并将其与COCO已有分割标注关联;测试集用Claude 3.5 Sonnet做二次验证,再经人工审核
- 设计动机:利用teacher VLM的强大语言能力自动化数据生成,最小化人工标注需求
-
无缝集成到现有模型:
- 功能:Ground-V作为额外训练数据即插即用
- 核心思路:保持LISA/PSALM的原始训练超参数和评估设置不变,仅将Ground-V加入训练数据
- 设计动机:验证数据的通用性和有效性,而非提出新架构
损失函数 / 训练策略¶
- 不改变原有LISA/PSALM的训练策略和损失函数
- 仅在训练数据中加入Ground-V的指令-分割对
- LISA基于LLaVA + Vicuna-7B + CLIP + SAM架构
- PSALM基于Phi-1.5 + Swin Transformer + Mask2Former架构
实验关键数据¶
主实验¶
RefCOCO/RefCOCO+/RefCOCOg(cIoU)
| 方法 | RefCOCO val | RefCOCO+ val | RefCOCOg val | 平均 |
|---|---|---|---|---|
| LISA | 70.2 | 59.2 | 63.2 | 64.4 |
| LISA+G5 | 73.9 (+3.7) | 63.1 (+3.9) | 64.9 (+1.7) | 66.6 (+2.2) |
| PSALM | 83.6 | 72.9 | 73.8 | 77.1 |
| PSALM+G5 | 83.9 | 73.1 | 74.8 | 77.3 |
gRefCOCO(多对象指代分割,gIoU / N-Acc)
| 方法 | val gIoU | val N-Acc | testA gIoU | testB gIoU | 平均 gIoU | 平均 N-Acc |
|---|---|---|---|---|---|---|
| LISA | 32.2 | 2.7 | 48.5 | 39.7 | 40.1 | 4.7 |
| LISA+G5 | 46.7 | 36.4 | 63.2 | 51.3 | 53.7 | 40.1 |
| PSALM | 43.3 | 27.7 | 54.5 | 52.5 | 50.1 | 24.5 |
| PSALM+G5 | 64.6 | 83.3 | 74.5 | 72.7 | 70.6 | 83.7 |
消融实验¶
Ground-V的五个维度对不同测试子集贡献明确,删除任一维度会导致对应测试子集性能下降。幻觉缓解数据对整体鲁棒性提升尤为重要。
关键发现¶
- 数据即核心:不改变模型架构,仅加入Ground-V训练数据,LISA平均提升4.4% gIoU,PSALM平均提升7.9% gIoU
- gRefCOCO上突破性提升:PSALM+G5的N-Acc从24.5%飙升至83.7%,超越前SOTA 20%以上,说明模型主要劣势在数据而非架构
- 幻觉处理能力显著增强:通过引入三类幻觉(对象/属性/关系)的负样本训练,模型学会了"拒绝分割"不存在的目标
- 数据生成流程高效可扩展:基于COCO标注和Claude自动化生成,无需额外的像素级标注
亮点与洞察¶
- 问题定义清晰:系统性地将复杂指令分割分解为五个正交维度,每个维度都有明确的数据构建策略
- 数据驱动的方法论:证明了对于VLM grounding任务,高质量的训练数据比模型架构创新更重要
- 幻觉维度的引入:在grounding任务中首次系统性地引入幻觉引用负样本训练,教模型学会"说不"
- N-Acc指标的巨大提升:从24.5%到83.7%的跨越说明之前模型在多对象拒绝场景下几乎完全失败,而原因仅仅是缺少相应训练数据
- 人工标注的测试集:5000张图像、5.7万条指令,经两名标注者独立验证,23.1%的数据因质量不佳被剔除
局限与展望¶
- 数据生成依赖Claude 3 Sonnet,可能在某些复杂场景下生成质量不稳定
- 图像源仅使用COCO 2017,场景多样性有限
- 推理维度的数据较难自动验证正确性,可能存在噪声
- 部件引用数据依赖PACO数据集,覆盖的对象类别有限
- 未探索更大规模的数据(如百万级)能否带来进一步收益
相关工作与启发¶
- LISA/PSALM: 两者代表了VLM分割的两种典型架构——LISA基于学习单个分割token + SAM解码,PSALM基于Mask2Former的多token输出
- ReasonSeg: 最早提出推理分割概念但仅支持单对象、1.2K数据
- MUSE: 支持推理+多对象但缺少幻觉/部件/多粒度维度,214K数据
- 启发:在VLM时代,数据的多样性和覆盖性可能比数据规模更重要
评分¶
- 新颖性: ⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐
相关论文¶
- [CVPR 2025] RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
- [CVPR 2025] Teaching Large Language Models to Regress Accurate Image Quality Scores Using Score Distribution
- [ACL 2025] Aria-UI: Visual Grounding for GUI Instructions
- [ACL 2025] Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
- [CVPR 2025] MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders