ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding¶

会议: ACL 2025
arXiv: 2501.01366
代码: 无
领域: 多模态VLM

一句话总结¶

提出 ViGiL3D——一个语言多样性诊断数据集和自动化分析框架，用于评估 3D 视觉定位（3DVG）方法在否定、粗粒度指代、共指消解等多种语言现象上的表现，揭示现有方法在分布外提示上性能显著下降（最高达 20+ 点）。

背景与动机¶

3DVG 数据集语言单一：现有主流数据集（ScanRefer、Nr3D、Sr3D）的描述以直接、简单的句式为主，句式结构和语言现象覆盖不全面，无法反映真实应用中用户的多样化表达。
LLM 扩展未解决多样性问题：近年来利用 LLM（如 GPT）自动生成大量 3DVG 提示，虽然规模扩大了，但语言模式仍然高度同质化——属性过多、目标类名过于具体、缺少否定句等。
否定类提示严重缺失：多数数据集几乎不包含否定句（如"找到没有绿色物体的食物储存柜"），但否定是自然语言中的重要现象，模型需要根据"不是什么"来排除对象。
目标指代粒度单一：绝大多数数据集中目标对象都以精确类名出现（如"椅子"），很少使用泛化指代（如"物体"、"设备"），这导致模型可以仅匹配类名而忽略其他语义信号。
缺少系统性语言评估框架：此前没有系统的框架来量化分析 3DVG 数据集中各类语言现象（属性类型、关系类型、指代方式、锚点类型等）的分布和覆盖情况。
实际应用需求：机器人和 AR/VR 对话助手等下游应用中，用户的描述方式复杂多变，包含视角依赖、排列关系、序数关系等，需要一个诊断性基准来衡量模型的真实能力。

方法详解¶

语言分析框架¶

作者设计了一套包含 35 个指标的自动化语言分析流水线，从三个维度全面度量 3DVG 提示：

语言多样性（DIV）：属性类型覆盖度（颜色、尺寸、形状、数量、材质、功能、纹理、风格、文字标签、状态共10类）、关系类型覆盖度（近/远/方向/垂直/包含/排列共6类）、词汇 bigram 独特率
语言解析度（RES）：目标属性与锚点属性分离解析、目标关系与锚点关系分离、共指消解检测、目标是否为首个名词短语
属性和关系理解（UAR）：属性/关系总量统计、泛化/粗粒度/细粒度指代比例、单对象/多对象/非对象/视角锚点比例、否定句比例

流水线使用 GPT-4o 提取增强场景图（对象、属性、关系），使用 SpaCy 做依存句法分析测量 bigram 多样性。在 225 条人工标注上验证，28 个二值指标平均精确率 0.86、召回率 0.91。

ViGiL3D 数据集构建¶

场景来源：ScanNet（26场景）+ ScanNet++，前者控制分布与已有方法可比，后者提供更高质量点云
标注方式：人工标注，标注者根据 RGB 视频流和 3D 点云为采样对象撰写定位描述
标注要求：覆盖多种语言模式（否定、泛化指代、粗粒度指代、视角锚点、序数关系等），自然措辞，适度约束（避免歧义但不过度限定）
零目标描述：设计为与场景中真实对象描述相似但经过修改使其不适用，比简单描述不存在类别更具挑战性
数据规模：350 条提示、35 个场景、词汇量 942、支持 0/1/多目标定位
多样性优势：在所有 35 个指标上实现最佳覆盖，lexical bigram 比例 0.45 远超其他数据集（最高 0.28）

评估的 3DVG 方法¶

涵盖三类共 7 个开放词汇方法： 1. CLIP 对齐 3D 表示：OpenScene（点云直接投影）、LERF（NeRF） 2. LLM 零样本推理：ZSVG3D（程序合成）、LLM-Grounder（自然语言推理） 3. 3DVG 数据训练模型：3D-VisTA、3D-GRAND（LLM 扩展数据训练）、PQ3D（聚合人工数据集训练）

实验结果¶

表1：ViGiL3D 与 ScanRefer 性能对比（ScanNet 场景，%）¶

方法	ViGiL3D Acc/GT	ViGiL3D F1/GT	ScanRefer Acc@25	ScanRefer Acc@50
OpenScene	2.1	2.1	13.2	6.5
LERF	2.5	2.5	4.8	0.9
ZSVG3D	18.9	12.2	36.4	32.7
LLM-Grounder	2.5	2.5	17.1	5.3
3D-VisTA	14.2	14.1	50.6	45.8
3D-GRAND	17.9	17.9	38.0	27.4
PQ3D	26.2	26.8	57.0	51.2

最优模型 PQ3D 在 ViGiL3D 上 F1 比 ScanRefer 下降 24.4 个百分点，证实现有方法在语言多样提示上存在严重不足。

表2：子组分析——不同语言现象的 Acc/GT（%）¶

方法	Overall	否定	泛化指代	粗粒度	文字标签	序数关系	比较关系
OpenScene	2.1	8.1	2.5	1.9	4.0	0.0	0.0
ZSVG3D	18.9	10.8	15.8	13.2	12.0	19.2	25.0
3D-GRAND	17.9	21.6	7.5	13.2	4.0	14.8	18.4
PQ3D	26.2	13.5	20.0	24.5	8.0	7.4	24.5

无单一模型在所有子组上一致最优；文字标签对所有方法均极其困难（点云分辨率不足）；否定类提示普遍导致性能下降。

亮点¶

首个系统化的 3DVG 语言多样性分析框架：35 个指标从 DIV/RES/UAR 三个维度全面度量，自动化流水线高精度可扩展
诊断性数据集设计理念新颖：不追求规模而追求覆盖度，350 条精心标注即可揭示所有方法的关键缺陷
子组分析提供可操作的改进方向：否定、泛化指代、文字标签等薄弱环节清晰暴露
论证了"数据规模≠能力提升"：PQ3D 在人工标注聚合数据上训练反而优于 LLM 扩展数据训练的模型

局限性¶

数据集规模小（仅 350 条提示、35 场景），统计结论的可靠性有限，子组样本量可能不足以支撑稳健结论
仅覆盖英语和室内场景，不涉及户外场景或多语言场景，文化差异未考虑
VLM 扩展困难：作者尝试用 VLM 自动生成多样化描述但效果不佳——VLM 缺乏 3D 理解、不自然生成多样描述、无法可靠区分同类对象
仅评估开放词汇方法，未涉及闭集模型的对比，评估覆盖面有限

评分¶

⭐⭐⭐⭐ 新颖性：首次系统量化 3DVG 语言多样性缺口并构建诊断基准
⭐⭐⭐⭐ 实用性：分析框架可直接复用于评估任何 3DVG 数据集，子组分析指导模型改进
⭐⭐⭐ 实验充分度：7 个方法覆盖三大类，但数据集规模限制了统计显著性
⭐⭐⭐⭐ 写作质量：结构清晰，表格和可视化丰富，语言分析框架阐述详尽

维度	ViGiL3D	ScanRefer (Chen et al., 2020)	SceneVerse (Jia et al., 2024)
提示来源	人工标注，强调多样性	众包标注	LLM+模板自动生成
语言多样性	bigram 0.45，覆盖所有现象	bigram 0.20，缺否定/泛化指代	bigram 0.16，属性关系极少
目标指代	泛化+粗粒度+细粒度均有	几乎全部细粒度	几乎全部细粒度
否定句	✓（显著比例）	✗	✗
设计目标	诊断评估，暴露弱点	通用训练+评估	大规模预训练