ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding¶
会议: ACL 2025
arXiv: 2501.01366
代码: 无
领域: 多模态VLM
一句话总结¶
提出 ViGiL3D——一个语言多样性诊断数据集和自动化分析框架,用于评估 3D 视觉定位(3DVG)方法在否定、粗粒度指代、共指消解等多种语言现象上的表现,揭示现有方法在分布外提示上性能显著下降(最高达 20+ 点)。
背景与动机¶
- 3DVG 数据集语言单一:现有主流数据集(ScanRefer、Nr3D、Sr3D)的描述以直接、简单的句式为主,句式结构和语言现象覆盖不全面,无法反映真实应用中用户的多样化表达。
- LLM 扩展未解决多样性问题:近年来利用 LLM(如 GPT)自动生成大量 3DVG 提示,虽然规模扩大了,但语言模式仍然高度同质化——属性过多、目标类名过于具体、缺少否定句等。
- 否定类提示严重缺失:多数数据集几乎不包含否定句(如"找到没有绿色物体的食物储存柜"),但否定是自然语言中的重要现象,模型需要根据"不是什么"来排除对象。
- 目标指代粒度单一:绝大多数数据集中目标对象都以精确类名出现(如"椅子"),很少使用泛化指代(如"物体"、"设备"),这导致模型可以仅匹配类名而忽略其他语义信号。
- 缺少系统性语言评估框架:此前没有系统的框架来量化分析 3DVG 数据集中各类语言现象(属性类型、关系类型、指代方式、锚点类型等)的分布和覆盖情况。
- 实际应用需求:机器人和 AR/VR 对话助手等下游应用中,用户的描述方式复杂多变,包含视角依赖、排列关系、序数关系等,需要一个诊断性基准来衡量模型的真实能力。
方法详解¶
语言分析框架¶
作者设计了一套包含 35 个指标的自动化语言分析流水线,从三个维度全面度量 3DVG 提示:
- 语言多样性(DIV):属性类型覆盖度(颜色、尺寸、形状、数量、材质、功能、纹理、风格、文字标签、状态共10类)、关系类型覆盖度(近/远/方向/垂直/包含/排列共6类)、词汇 bigram 独特率
- 语言解析度(RES):目标属性与锚点属性分离解析、目标关系与锚点关系分离、共指消解检测、目标是否为首个名词短语
- 属性和关系理解(UAR):属性/关系总量统计、泛化/粗粒度/细粒度指代比例、单对象/多对象/非对象/视角锚点比例、否定句比例
流水线使用 GPT-4o 提取增强场景图(对象、属性、关系),使用 SpaCy 做依存句法分析测量 bigram 多样性。在 225 条人工标注上验证,28 个二值指标平均精确率 0.86、召回率 0.91。
ViGiL3D 数据集构建¶
- 场景来源:ScanNet(26场景)+ ScanNet++,前者控制分布与已有方法可比,后者提供更高质量点云
- 标注方式:人工标注,标注者根据 RGB 视频流和 3D 点云为采样对象撰写定位描述
- 标注要求:覆盖多种语言模式(否定、泛化指代、粗粒度指代、视角锚点、序数关系等),自然措辞,适度约束(避免歧义但不过度限定)
- 零目标描述:设计为与场景中真实对象描述相似但经过修改使其不适用,比简单描述不存在类别更具挑战性
- 数据规模:350 条提示、35 个场景、词汇量 942、支持 0/1/多目标定位
- 多样性优势:在所有 35 个指标上实现最佳覆盖,lexical bigram 比例 0.45 远超其他数据集(最高 0.28)
评估的 3DVG 方法¶
涵盖三类共 7 个开放词汇方法: 1. CLIP 对齐 3D 表示:OpenScene(点云直接投影)、LERF(NeRF) 2. LLM 零样本推理:ZSVG3D(程序合成)、LLM-Grounder(自然语言推理) 3. 3DVG 数据训练模型:3D-VisTA、3D-GRAND(LLM 扩展数据训练)、PQ3D(聚合人工数据集训练)
实验结果¶
表1:ViGiL3D 与 ScanRefer 性能对比(ScanNet 场景,%)¶
| 方法 | ViGiL3D Acc/GT | ViGiL3D F1/GT | ScanRefer Acc@25 | ScanRefer Acc@50 |
|---|---|---|---|---|
| OpenScene | 2.1 | 2.1 | 13.2 | 6.5 |
| LERF | 2.5 | 2.5 | 4.8 | 0.9 |
| ZSVG3D | 18.9 | 12.2 | 36.4 | 32.7 |
| LLM-Grounder | 2.5 | 2.5 | 17.1 | 5.3 |
| 3D-VisTA | 14.2 | 14.1 | 50.6 | 45.8 |
| 3D-GRAND | 17.9 | 17.9 | 38.0 | 27.4 |
| PQ3D | 26.2 | 26.8 | 57.0 | 51.2 |
最优模型 PQ3D 在 ViGiL3D 上 F1 比 ScanRefer 下降 24.4 个百分点,证实现有方法在语言多样提示上存在严重不足。
表2:子组分析——不同语言现象的 Acc/GT(%)¶
| 方法 | Overall | 否定 | 泛化指代 | 粗粒度 | 文字标签 | 序数关系 | 比较关系 |
|---|---|---|---|---|---|---|---|
| OpenScene | 2.1 | 8.1 | 2.5 | 1.9 | 4.0 | 0.0 | 0.0 |
| ZSVG3D | 18.9 | 10.8 | 15.8 | 13.2 | 12.0 | 19.2 | 25.0 |
| 3D-GRAND | 17.9 | 21.6 | 7.5 | 13.2 | 4.0 | 14.8 | 18.4 |
| PQ3D | 26.2 | 13.5 | 20.0 | 24.5 | 8.0 | 7.4 | 24.5 |
无单一模型在所有子组上一致最优;文字标签对所有方法均极其困难(点云分辨率不足);否定类提示普遍导致性能下降。
亮点¶
- 首个系统化的 3DVG 语言多样性分析框架:35 个指标从 DIV/RES/UAR 三个维度全面度量,自动化流水线高精度可扩展
- 诊断性数据集设计理念新颖:不追求规模而追求覆盖度,350 条精心标注即可揭示所有方法的关键缺陷
- 子组分析提供可操作的改进方向:否定、泛化指代、文字标签等薄弱环节清晰暴露
- 论证了"数据规模≠能力提升":PQ3D 在人工标注聚合数据上训练反而优于 LLM 扩展数据训练的模型
局限性¶
- 数据集规模小(仅 350 条提示、35 场景),统计结论的可靠性有限,子组样本量可能不足以支撑稳健结论
- 仅覆盖英语和室内场景,不涉及户外场景或多语言场景,文化差异未考虑
- VLM 扩展困难:作者尝试用 VLM 自动生成多样化描述但效果不佳——VLM 缺乏 3D 理解、不自然生成多样描述、无法可靠区分同类对象
- 仅评估开放词汇方法,未涉及闭集模型的对比,评估覆盖面有限
相关工作对比¶
| 维度 | ViGiL3D | ScanRefer (Chen et al., 2020) | SceneVerse (Jia et al., 2024) |
|---|---|---|---|
| 提示来源 | 人工标注,强调多样性 | 众包标注 | LLM+模板自动生成 |
| 语言多样性 | bigram 0.45,覆盖所有现象 | bigram 0.20,缺否定/泛化指代 | bigram 0.16,属性关系极少 |
| 目标指代 | 泛化+粗粒度+细粒度均有 | 几乎全部细粒度 | 几乎全部细粒度 |
| 否定句 | ✓(显著比例) | ✗ | ✗ |
| 设计目标 | 诊断评估,暴露弱点 | 通用训练+评估 | 大规模预训练 |
评分¶
- ⭐⭐⭐⭐ 新颖性:首次系统量化 3DVG 语言多样性缺口并构建诊断基准
- ⭐⭐⭐⭐ 实用性:分析框架可直接复用于评估任何 3DVG 数据集,子组分析指导模型改进
- ⭐⭐⭐ 实验充分度:7 个方法覆盖三大类,但数据集规模限制了统计显著性
- ⭐⭐⭐⭐ 写作质量:结构清晰,表格和可视化丰富,语言分析框架阐述详尽