跳转至

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

会议: ICCV 2025
arXiv: 2503.17827
代码: https://4dbench.github.io/ (有)
领域: 视频理解 / 多模态VLM
关键词: 4D理解, 多模态大语言模型, Benchmark, 多视角时序理解, 4D物体问答

一句话总结

提出 4D-Bench,首个评估多模态大语言模型对4D物体(具有时间演化的3D物体)理解能力的基准,包含4D物体问答(751 QA对)和4D物体描述(580物体×5标注)两大任务,发现即使SOTA的GPT-4o也仅达63%准确率(人类91%),揭示了MLLM在多视角时空理解上的巨大差距。

背景与动机

数字4D资产(动态3D物体)在数字孪生、增强现实、游戏等领域日益重要,用语言理解和交互4D物体的需求迫切。现有的MLLM在2D图像/视频理解上表现出色,但面对4D物体时存在独特挑战:

  1. 多视角歧义性:4D物体从不同视角呈现不同外观,某些部件在特定视角下被遮挡或模糊不清,需要跨视角整合信息
  2. 时间演化:物体的动态运动需要跨时间步的追踪和推理
  3. 数据稀缺:不像2D图像-文本数据在互联网上大量存在,大规模4D物体-文本数据极度匮乏
  4. 缺乏评估标准:此前没有专门评估MLLM理解4D物体能力的公开基准

现有基准的局限:3D语言理解基准(如ScanQA、SceneVerse)只关注静态3D场景,忽略运动信息;2D视频基准(如MVBench、Video-MME)忽略多视角理解。两者都无法全面评估4D物体的多视角时空理解能力。

核心问题

能否直接将先进的MLLM扩展到4D物体理解? 现有MLLM(GPT-4o、Qwen2-VL等)已从海量文本、图像和视频数据中学习了丰富的世界知识。通过将4D物体表示为多视角视频,可以直接利用MLLM进行4D物体语言理解。但关键问题是:没有专门的评估基准,无法了解这些模型在4D物体理解方面的优势和局限,也就难以改进和释放其潜力。

方法详解

整体框架

4D-Bench 不是一个模型或方法,而是一个评估基准,包含两大核心任务:

输入:4D物体的多视角视频(从Objaverse-XL渲染,均匀选取 K=3 个视角,每个视角采样 N=6 帧,共 K×N=18 帧输入MLLM)
任务1 - 4D Object QA:给定多视角视频和四选一问题,评估MLLM的准确率
任务2 - 4D Object Captioning:给定多视角视频,要求MLLM生成描述,与5条人类标注对比

关键设计

  1. 4D Object QA 五大子任务
  2. Appearance(外观):评估物体的视觉属性描述能力,挑战在于合成/虚构物体偏离训练数据分布,且需要跨视角整合外观信息
  3. Action(动作):评估理解物体活动和局部运动的能力,包括典型动作识别、细粒度运动检测、运动方向分析
  4. Object Counting(物体计数):在动态和空间复杂场景中进行精确计数,需要处理时间动态(物体出现/消失)和遮挡(需跨视角信息融合)
  5. Spatial Relationship(空间关系):理解多视角下的空间配置和物体关系
  6. Temporal Relationship(时序关系):理解物体的时间演化和顺序动作

  7. 4D Object Captioning 设计

  8. 要求同时描述物体外观(appearance)和动作(action)
  9. 外观描述需聚合不同角度的视觉细节,动作描述需从多视角观察运动序列
  10. 每个4D物体配备5条独立人类标注caption

  11. 数据构建流程(三阶段清洗管线):

  12. 数据采集:从Objaverse-XL渲染数万个动态3D物体的多视角视频(24个视角,每个视角最多125帧)
  13. 运动过滤:通过像素变化检测识别物体运动的时间边界,确保数据集只包含动态物体
  14. 视觉质量过滤:基于CLIP的质量分类器,手动标注数千张图像训练,利用8个视角的多数投票去除低质量物体
  15. QA标注:混合标注策略——先由专业标注员手工设计164对高质量QA,后利用GPT-4o和Qwen2-VL生成QA对,经Qwen2-VL 7B验证 → 盲过滤(用纯文本LLM筛除无需视觉就能答对的QA) → 人工审核
  16. Caption标注:人工精选580个代表性4D物体,5名标注员独立标注,审核员确保质量和多样性

  17. 评估指标设计

  18. QA:各子任务准确率 + 总体准确率
  19. Captioning:传统指标(BLEU、ROUGE、METEOR、CIDEr)+ 嵌入指标(BERTScore、Sentence-BERT)+ LLM评估指标(GPT-Appearance分、GPT-Action分、GPT-Eval均分,0-5分)
  20. 论文重点关注GPT-based指标,因其与人类判断相关性更强

损失函数 / 训练策略

本文为Benchmark论文,不涉及模型训练。评估采用统一的采样策略:K=3视角、N=6帧,通过先视角后时间的顺序排列输入图像。

实验关键数据

4D Object QA 结果

模型 Object Counting Temporal Rel. Action Spatial Rel. Appearance Overall
GPT-4o 44.09% 59.29% 63.55% 69.40% 77.21% 62.98%
LLaVA-Video 72B 54.33% 58.57% 57.48% 66.42% 77.21% 62.32%
LLaVA-OneVision 72B 49.61% 58.57% 60.75% 61.19% 76.47% 61.38%
Gemini 1.5 Pro 46.46% 58.57% 59.35% 64.18% 68.38% 59.52%
Qwen2-VL 72B 45.67% 55.71% 58.41% 61.19% 72.06% 58.72%
所有模型平均 37.29% 49.29% 49.37% 53.57% 63.92% 50.69%
人类基线 88.98% 89.29% 94.39% 91.04% 89.71% 91.08%

4D Object Captioning 结果(GPT指标)

模型 GPT-Appearance GPT-Action GPT-Eval
GPT-4o 3.507/5 3.258/5 3.382/5
GPT-4o mini 3.311/5 3.131/5 3.221/5
Gemini 1.5 Pro 3.311/5 2.983/5 3.147/5
Qwen2-VL 72B 3.324/5 2.791/5 3.057/5
所有MLLM平均 3.038/5 2.522/5 2.780/5
人类 3.772/5 3.879/5 3.826/5

消融实验要点

  • 视角数量影响:从1个视角增加到3个视角,QA准确率从41.3%提升到53.7%(Gemini 1.5 Flash),但超过3个视角后性能下降,可能因信息冗余超过模型处理能力
  • 时间采样频率:从2帧增加到6帧,准确率从46.3%提升到53.7%,超过6帧后改善微弱
  • 输入顺序鲁棒性:视角优先vs时间优先排序、是否包含时间戳信息,对结果影响很小(平均变化<1%),说明实验设计稳健
  • 反事实数据测试:合成蜘蛛只有6条腿(真实8条)、球滚入向下孔洞后又滚出(违反物理定律)——所有先进MLLM都答错,说明它们依赖先验世界知识而非真正理解输入

亮点

  • 首创性:首个系统评估MLLM在4D(动态3D)物体理解上能力的基准,填补了3D理解基准忽略时间维度、视频理解基准忽略多视角维度的空白
  • 巧妙的盲过滤机制:用纯文本LLM过滤掉不需要视觉信息就能答对的QA对,确保问题真正需要视觉理解
  • OOD测试能力:合成4D资产包含反事实物体和运动,为MLLM提供分布外(OOD)评估(训练数据以真实世界为主的MLLM无法依赖先验知识作弊)
  • 揭示性能层级:清晰揭示MLLM能力的梯度——Appearance > Spatial > Temporal ≈ Action >> Counting,为改进方向提供了明确指导
  • 开源模型vs闭源模型差距定位:外观理解差距小,但动作/时序理解差距大,为开源社区指明重点突破方向

局限性 / 可改进方向

  • 4D表征局限:将4D物体表示为多视角视频虽然使评估成为可能,但丢失了点云、4DGS等原生3D/4D表征的几何信息,无法评估MLLM对原生4D表征的理解能力
  • 数据规模有限:QA仅751对,Captioning仅580个物体,规模相对较小,可能不够代表4D物体的多样性
  • 单物体场景:4D-Bench仅评估单个4D物体的理解,未涉及多物体交互、4D场景级理解
  • 合成数据偏差:所有数据来自Objaverse-XL(合成数据),与真实世界4D扫描的domain gap可能影响结论的可迁移性
  • 缺乏训练集:仅为评估基准,没有提供训练集来推动4D物体-语言理解模型的开发
  • 潜在扩展:可结合4D生成(如4D Gaussian Splatting生成的数据)扩展数据规模;可增加多物体交互、物理推理等更复杂的子任务

与相关工作的对比

对比维度 4D-Bench ScanQA/SceneVerse (3D基准) MVBench/Video-MME (视频基准)
空间维度 多视角3D 3D点云/场景 单视角2D
时间维度 ✓ 动态运动 ✗ 仅静态 ✓ 时序变化
物体Focus 物体级(单物体) 场景级 场景级
数据类型 合成4D资产 真实3D扫描 真实视频
OOD能力 ✓ 反事实物体

相比T3Bench(评估文本到3D生成),4D-Bench关注的是对4D物体的语言理解而非生成。

启发与关联

  1. 4D理解的核心瓶颈是时序推理:MLLM在外观理解上已接近闭源水平,但时序/动作理解差距巨大。这说明当前视觉编码器的时序建模能力是主要瓶颈,更先进的temporal-aware视觉编码器可能是突破口
  2. 计数能力极弱:多视角物体计数仅37%准确率,暗示MLLM在跨视角一致性推理(cross-view correspondence)上极度薄弱,这与3D一致性理解直接相关
  3. 反事实数据是强evaluation信号:合成数据天然可以包含违反物理定律的场景,这为评估MLLM的"真正理解"vs"先验记忆"提供了强有力的手段
  4. 从评估到训练:4D-Bench揭示的能力短板(时序、计数、反事实)可以指导构造针对性的4D理解训练数据

评分

  • 新颖性: ⭐⭐⭐⭐ 首个4D物体理解MLLM基准,填补了重要空白,但基准论文的方法创新性相对有限
  • 实验充分度: ⭐⭐⭐⭐⭐ 评估了14个MLLM(开源+闭源)、5个QA子任务、多种captioning指标,消融实验详尽(视角数、采样频率、输入顺序、反事实分析)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,发现呈现有条理,图表丰富
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM在4D理解上的系统性弱点,对未来研究有重要指导意义