跳转至

Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels

会议: CVPR 2025
arXiv: 2505.13788
代码: 无
领域: 多模态VLM
关键词: 视觉定位、指代分割、数据集构建、复杂指令、像素级grounding

一句话总结

构建了Ground-V,一个包含50万指令-分割对的数据集,系统性解决真实世界指代分割中的五大挑战(幻觉引用、多对象、推理、多粒度、部件引用),训练后的VLM在gRefCOCO上N-Acc超越前SOTA 20%以上。

研究背景与动机

领域现状: 大型视觉语言模型(VLMs)已在通用多模态任务中展现强大能力。近期工作(LISA、PSALM等)通过在VLM中学习特殊的grounding token并与SAM配合,开始具备了推理驱动的分割能力。

现有痛点: 1. 当前VLM分割模型在复杂指令下极不可靠——例如一张包含多种颜色苹果的图中,要求分割红色苹果时会错误地包含其他颜色 2. 指令越复杂(如"分割陶瓷碗旁边被咬过的红苹果"),模型越容易忽略上下文细节 3. 根本原因在于训练数据:大多grounding数据集仅包含简单直接的引用表达,与人类丰富的自然语言描述之间存在显著鸿沟

核心矛盾: VLM具备强大的多模态理解能力,但受限于训练数据的简单性,无法将理解能力转化为复杂指令下的精确像素级定位。

本文目标 通过规模化构建面向复杂场景的指令-分割数据,弥合VLM的理解能力与grounding精度之间的鸿沟。

切入角度: 系统性地识别真实世界指代分割中的五大关键挑战,并为每个维度设计自动化的数据生成流程。

核心 idea: 用知识蒸馏(Claude作为teacher VLM)自动生成覆盖五大挑战维度的高质量指令-分割数据集,直接接入现有模型训练即可大幅提升性能。

方法详解

整体框架

Ground-V的核心是一个自动化数据生成工作流:(1) 识别五大真实世界挑战;(2) 为每个维度设计few-shot prompt;(3) 利用Claude 3 Sonnet生成指令-回答对并关联已有的像素级标注(COCO 2017);(4) 人工标注验证测试集。总计生成50K图像、约48万指令-分割对。

关键设计

  1. 五大挑战维度的数据设计:

    • 功能:系统性覆盖真实世界指代分割的关键难点
    • 核心思路:
      • 多粒度:同一对象可在不同抽象层级描述("柯基"→"狗"→"宠物"→"动物")
      • 多对象:同时引用5个以上对象的指令
      • 幻觉引用:描述图中不存在的对象/属性/关系,模型应拒绝分割
      • 推理:需要常识推理的抽象指令(如"富含抗氧化剂的水果")
      • 部件引用:对象的组成部件(如微波炉的按钮)
    • 设计动机:覆盖从简单到复杂、从具体到抽象的完整指令谱系
  2. 自动化数据生成管道:

    • 功能:大规模生成带像素标注的指令-回答对
    • 核心思路:为每个维度手工制作3-shot示例,用Claude 3 Sonnet根据查询图像生成新的指令-回答对,并将其与COCO已有分割标注关联;测试集用Claude 3.5 Sonnet做二次验证,再经人工审核
    • 设计动机:利用teacher VLM的强大语言能力自动化数据生成,最小化人工标注需求
  3. 无缝集成到现有模型:

    • 功能:Ground-V作为额外训练数据即插即用
    • 核心思路:保持LISA/PSALM的原始训练超参数和评估设置不变,仅将Ground-V加入训练数据
    • 设计动机:验证数据的通用性和有效性,而非提出新架构

损失函数 / 训练策略

  • 不改变原有LISA/PSALM的训练策略和损失函数
  • 仅在训练数据中加入Ground-V的指令-分割对
  • LISA基于LLaVA + Vicuna-7B + CLIP + SAM架构
  • PSALM基于Phi-1.5 + Swin Transformer + Mask2Former架构

实验关键数据

主实验

RefCOCO/RefCOCO+/RefCOCOg(cIoU)

方法 RefCOCO val RefCOCO+ val RefCOCOg val 平均
LISA 70.2 59.2 63.2 64.4
LISA+G5 73.9 (+3.7) 63.1 (+3.9) 64.9 (+1.7) 66.6 (+2.2)
PSALM 83.6 72.9 73.8 77.1
PSALM+G5 83.9 73.1 74.8 77.3

gRefCOCO(多对象指代分割,gIoU / N-Acc)

方法 val gIoU val N-Acc testA gIoU testB gIoU 平均 gIoU 平均 N-Acc
LISA 32.2 2.7 48.5 39.7 40.1 4.7
LISA+G5 46.7 36.4 63.2 51.3 53.7 40.1
PSALM 43.3 27.7 54.5 52.5 50.1 24.5
PSALM+G5 64.6 83.3 74.5 72.7 70.6 83.7

消融实验

Ground-V的五个维度对不同测试子集贡献明确,删除任一维度会导致对应测试子集性能下降。幻觉缓解数据对整体鲁棒性提升尤为重要。

关键发现

  1. 数据即核心:不改变模型架构,仅加入Ground-V训练数据,LISA平均提升4.4% gIoU,PSALM平均提升7.9% gIoU
  2. gRefCOCO上突破性提升:PSALM+G5的N-Acc从24.5%飙升至83.7%,超越前SOTA 20%以上,说明模型主要劣势在数据而非架构
  3. 幻觉处理能力显著增强:通过引入三类幻觉(对象/属性/关系)的负样本训练,模型学会了"拒绝分割"不存在的目标
  4. 数据生成流程高效可扩展:基于COCO标注和Claude自动化生成,无需额外的像素级标注

亮点与洞察

  1. 问题定义清晰:系统性地将复杂指令分割分解为五个正交维度,每个维度都有明确的数据构建策略
  2. 数据驱动的方法论:证明了对于VLM grounding任务,高质量的训练数据比模型架构创新更重要
  3. 幻觉维度的引入:在grounding任务中首次系统性地引入幻觉引用负样本训练,教模型学会"说不"
  4. N-Acc指标的巨大提升:从24.5%到83.7%的跨越说明之前模型在多对象拒绝场景下几乎完全失败,而原因仅仅是缺少相应训练数据
  5. 人工标注的测试集:5000张图像、5.7万条指令,经两名标注者独立验证,23.1%的数据因质量不佳被剔除

局限与展望

  1. 数据生成依赖Claude 3 Sonnet,可能在某些复杂场景下生成质量不稳定
  2. 图像源仅使用COCO 2017,场景多样性有限
  3. 推理维度的数据较难自动验证正确性,可能存在噪声
  4. 部件引用数据依赖PACO数据集,覆盖的对象类别有限
  5. 未探索更大规模的数据(如百万级)能否带来进一步收益

相关工作与启发

  • LISA/PSALM: 两者代表了VLM分割的两种典型架构——LISA基于学习单个分割token + SAM解码,PSALM基于Mask2Former的多token输出
  • ReasonSeg: 最早提出推理分割概念但仅支持单对象、1.2K数据
  • MUSE: 支持推理+多对象但缺少幻觉/部件/多粒度维度,214K数据
  • 启发:在VLM时代,数据的多样性和覆盖性可能比数据规模更重要

评分

  • 新颖性: ⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文