Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels¶

会议: CVPR 2025
arXiv: 2505.13788
代码: 无
领域: 多模态VLM
关键词: 视觉定位、指代分割、数据集构建、复杂指令、像素级grounding

一句话总结¶

构建了Ground-V，一个包含50万指令-分割对的数据集，系统性解决真实世界指代分割中的五大挑战（幻觉引用、多对象、推理、多粒度、部件引用），训练后的VLM在gRefCOCO上N-Acc超越前SOTA 20%以上。

研究背景与动机¶

领域现状：大型视觉语言模型（VLMs）已在通用多模态任务中展现强大能力。近期工作（LISA、PSALM等）通过在VLM中学习特殊的grounding token并与SAM配合，开始具备了推理驱动的分割能力。

现有痛点： 1. 当前VLM分割模型在复杂指令下极不可靠——例如一张包含多种颜色苹果的图中，要求分割红色苹果时会错误地包含其他颜色 2. 指令越复杂（如"分割陶瓷碗旁边被咬过的红苹果"），模型越容易忽略上下文细节 3. 根本原因在于训练数据：大多grounding数据集仅包含简单直接的引用表达，与人类丰富的自然语言描述之间存在显著鸿沟

核心矛盾： VLM具备强大的多模态理解能力，但受限于训练数据的简单性，无法将理解能力转化为复杂指令下的精确像素级定位。

本文目标 通过规模化构建面向复杂场景的指令-分割数据，弥合VLM的理解能力与grounding精度之间的鸿沟。

切入角度：系统性地识别真实世界指代分割中的五大关键挑战，并为每个维度设计自动化的数据生成流程。

核心 idea：用知识蒸馏（Claude作为teacher VLM）自动生成覆盖五大挑战维度的高质量指令-分割数据集，直接接入现有模型训练即可大幅提升性能。

方法详解¶

整体框架¶

Ground-V的核心是一个自动化数据生成工作流：(1) 识别五大真实世界挑战；(2) 为每个维度设计few-shot prompt；(3) 利用Claude 3 Sonnet生成指令-回答对并关联已有的像素级标注（COCO 2017）；(4) 人工标注验证测试集。总计生成50K图像、约48万指令-分割对。

关键设计¶

五大挑战维度的数据设计:
- 功能：系统性覆盖真实世界指代分割的关键难点
- 核心思路：
  - 多粒度：同一对象可在不同抽象层级描述（"柯基"→"狗"→"宠物"→"动物"）
  - 多对象：同时引用5个以上对象的指令
  - 幻觉引用：描述图中不存在的对象/属性/关系，模型应拒绝分割
  - 推理：需要常识推理的抽象指令（如"富含抗氧化剂的水果"）
  - 部件引用：对象的组成部件（如微波炉的按钮）
- 设计动机：覆盖从简单到复杂、从具体到抽象的完整指令谱系
自动化数据生成管道:
- 功能：大规模生成带像素标注的指令-回答对
- 核心思路：为每个维度手工制作3-shot示例，用Claude 3 Sonnet根据查询图像生成新的指令-回答对，并将其与COCO已有分割标注关联；测试集用Claude 3.5 Sonnet做二次验证，再经人工审核
- 设计动机：利用teacher VLM的强大语言能力自动化数据生成，最小化人工标注需求
无缝集成到现有模型:
- 功能：Ground-V作为额外训练数据即插即用
- 核心思路：保持LISA/PSALM的原始训练超参数和评估设置不变，仅将Ground-V加入训练数据
- 设计动机：验证数据的通用性和有效性，而非提出新架构

损失函数 / 训练策略¶

不改变原有LISA/PSALM的训练策略和损失函数
仅在训练数据中加入Ground-V的指令-分割对
LISA基于LLaVA + Vicuna-7B + CLIP + SAM架构
PSALM基于Phi-1.5 + Swin Transformer + Mask2Former架构

实验关键数据¶

主实验¶

RefCOCO/RefCOCO+/RefCOCOg（cIoU）

方法	RefCOCO val	RefCOCO+ val	RefCOCOg val	平均
LISA	70.2	59.2	63.2	64.4
LISA+G5	73.9 (+3.7)	63.1 (+3.9)	64.9 (+1.7)	66.6 (+2.2)
PSALM	83.6	72.9	73.8	77.1
PSALM+G5	83.9	73.1	74.8	77.3

gRefCOCO（多对象指代分割，gIoU / N-Acc）

方法	val gIoU	val N-Acc	testA gIoU	testB gIoU	平均 gIoU	平均 N-Acc
LISA	32.2	2.7	48.5	39.7	40.1	4.7
LISA+G5	46.7	36.4	63.2	51.3	53.7	40.1
PSALM	43.3	27.7	54.5	52.5	50.1	24.5
PSALM+G5	64.6	83.3	74.5	72.7	70.6	83.7

消融实验¶

Ground-V的五个维度对不同测试子集贡献明确，删除任一维度会导致对应测试子集性能下降。幻觉缓解数据对整体鲁棒性提升尤为重要。

关键发现¶

数据即核心：不改变模型架构，仅加入Ground-V训练数据，LISA平均提升4.4% gIoU，PSALM平均提升7.9% gIoU
gRefCOCO上突破性提升：PSALM+G5的N-Acc从24.5%飙升至83.7%，超越前SOTA 20%以上，说明模型主要劣势在数据而非架构
幻觉处理能力显著增强：通过引入三类幻觉（对象/属性/关系）的负样本训练，模型学会了"拒绝分割"不存在的目标
数据生成流程高效可扩展：基于COCO标注和Claude自动化生成，无需额外的像素级标注

亮点与洞察¶

问题定义清晰：系统性地将复杂指令分割分解为五个正交维度，每个维度都有明确的数据构建策略
数据驱动的方法论：证明了对于VLM grounding任务，高质量的训练数据比模型架构创新更重要
幻觉维度的引入：在grounding任务中首次系统性地引入幻觉引用负样本训练，教模型学会"说不"
N-Acc指标的巨大提升：从24.5%到83.7%的跨越说明之前模型在多对象拒绝场景下几乎完全失败，而原因仅仅是缺少相应训练数据
人工标注的测试集：5000张图像、5.7万条指令，经两名标注者独立验证，23.1%的数据因质量不佳被剔除

局限与展望¶

数据生成依赖Claude 3 Sonnet，可能在某些复杂场景下生成质量不稳定
图像源仅使用COCO 2017，场景多样性有限
推理维度的数据较难自动验证正确性，可能存在噪声
部件引用数据依赖PACO数据集，覆盖的对象类别有限
未探索更大规模的数据（如百万级）能否带来进一步收益

评分¶

新颖性: ⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐