4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding¶
会议: ICCV 2025
arXiv: 2503.17827
代码: https://4dbench.github.io/ (有)
领域: 视频理解 / 多模态VLM
关键词: 4D理解, 多模态大语言模型, Benchmark, 多视角时序理解, 4D物体问答
一句话总结¶
提出 4D-Bench,首个评估多模态大语言模型对4D物体(具有时间演化的3D物体)理解能力的基准,包含4D物体问答(751 QA对)和4D物体描述(580物体×5标注)两大任务,发现即使SOTA的GPT-4o也仅达63%准确率(人类91%),揭示了MLLM在多视角时空理解上的巨大差距。
背景与动机¶
数字4D资产(动态3D物体)在数字孪生、增强现实、游戏等领域日益重要,用语言理解和交互4D物体的需求迫切。现有的MLLM在2D图像/视频理解上表现出色,但面对4D物体时存在独特挑战:
- 多视角歧义性:4D物体从不同视角呈现不同外观,某些部件在特定视角下被遮挡或模糊不清,需要跨视角整合信息
- 时间演化:物体的动态运动需要跨时间步的追踪和推理
- 数据稀缺:不像2D图像-文本数据在互联网上大量存在,大规模4D物体-文本数据极度匮乏
- 缺乏评估标准:此前没有专门评估MLLM理解4D物体能力的公开基准
现有基准的局限:3D语言理解基准(如ScanQA、SceneVerse)只关注静态3D场景,忽略运动信息;2D视频基准(如MVBench、Video-MME)忽略多视角理解。两者都无法全面评估4D物体的多视角时空理解能力。
核心问题¶
能否直接将先进的MLLM扩展到4D物体理解? 现有MLLM(GPT-4o、Qwen2-VL等)已从海量文本、图像和视频数据中学习了丰富的世界知识。通过将4D物体表示为多视角视频,可以直接利用MLLM进行4D物体语言理解。但关键问题是:没有专门的评估基准,无法了解这些模型在4D物体理解方面的优势和局限,也就难以改进和释放其潜力。
方法详解¶
整体框架¶
4D-Bench 不是一个模型或方法,而是一个评估基准,包含两大核心任务:
输入:4D物体的多视角视频(从Objaverse-XL渲染,均匀选取 K=3 个视角,每个视角采样 N=6 帧,共 K×N=18 帧输入MLLM)
任务1 - 4D Object QA:给定多视角视频和四选一问题,评估MLLM的准确率
任务2 - 4D Object Captioning:给定多视角视频,要求MLLM生成描述,与5条人类标注对比
关键设计¶
- 4D Object QA 五大子任务:
- Appearance(外观):评估物体的视觉属性描述能力,挑战在于合成/虚构物体偏离训练数据分布,且需要跨视角整合外观信息
- Action(动作):评估理解物体活动和局部运动的能力,包括典型动作识别、细粒度运动检测、运动方向分析
- Object Counting(物体计数):在动态和空间复杂场景中进行精确计数,需要处理时间动态(物体出现/消失)和遮挡(需跨视角信息融合)
- Spatial Relationship(空间关系):理解多视角下的空间配置和物体关系
-
Temporal Relationship(时序关系):理解物体的时间演化和顺序动作
-
4D Object Captioning 设计:
- 要求同时描述物体外观(appearance)和动作(action)
- 外观描述需聚合不同角度的视觉细节,动作描述需从多视角观察运动序列
-
每个4D物体配备5条独立人类标注caption
-
数据构建流程(三阶段清洗管线):
- 数据采集:从Objaverse-XL渲染数万个动态3D物体的多视角视频(24个视角,每个视角最多125帧)
- 运动过滤:通过像素变化检测识别物体运动的时间边界,确保数据集只包含动态物体
- 视觉质量过滤:基于CLIP的质量分类器,手动标注数千张图像训练,利用8个视角的多数投票去除低质量物体
- QA标注:混合标注策略——先由专业标注员手工设计164对高质量QA,后利用GPT-4o和Qwen2-VL生成QA对,经Qwen2-VL 7B验证 → 盲过滤(用纯文本LLM筛除无需视觉就能答对的QA) → 人工审核
-
Caption标注:人工精选580个代表性4D物体,5名标注员独立标注,审核员确保质量和多样性
-
评估指标设计:
- QA:各子任务准确率 + 总体准确率
- Captioning:传统指标(BLEU、ROUGE、METEOR、CIDEr)+ 嵌入指标(BERTScore、Sentence-BERT)+ LLM评估指标(GPT-Appearance分、GPT-Action分、GPT-Eval均分,0-5分)
- 论文重点关注GPT-based指标,因其与人类判断相关性更强
损失函数 / 训练策略¶
本文为Benchmark论文,不涉及模型训练。评估采用统一的采样策略:K=3视角、N=6帧,通过先视角后时间的顺序排列输入图像。
实验关键数据¶
4D Object QA 结果¶
| 模型 | Object Counting | Temporal Rel. | Action | Spatial Rel. | Appearance | Overall |
|---|---|---|---|---|---|---|
| GPT-4o | 44.09% | 59.29% | 63.55% | 69.40% | 77.21% | 62.98% |
| LLaVA-Video 72B | 54.33% | 58.57% | 57.48% | 66.42% | 77.21% | 62.32% |
| LLaVA-OneVision 72B | 49.61% | 58.57% | 60.75% | 61.19% | 76.47% | 61.38% |
| Gemini 1.5 Pro | 46.46% | 58.57% | 59.35% | 64.18% | 68.38% | 59.52% |
| Qwen2-VL 72B | 45.67% | 55.71% | 58.41% | 61.19% | 72.06% | 58.72% |
| 所有模型平均 | 37.29% | 49.29% | 49.37% | 53.57% | 63.92% | 50.69% |
| 人类基线 | 88.98% | 89.29% | 94.39% | 91.04% | 89.71% | 91.08% |
4D Object Captioning 结果(GPT指标)¶
| 模型 | GPT-Appearance | GPT-Action | GPT-Eval |
|---|---|---|---|
| GPT-4o | 3.507/5 | 3.258/5 | 3.382/5 |
| GPT-4o mini | 3.311/5 | 3.131/5 | 3.221/5 |
| Gemini 1.5 Pro | 3.311/5 | 2.983/5 | 3.147/5 |
| Qwen2-VL 72B | 3.324/5 | 2.791/5 | 3.057/5 |
| 所有MLLM平均 | 3.038/5 | 2.522/5 | 2.780/5 |
| 人类 | 3.772/5 | 3.879/5 | 3.826/5 |
消融实验要点¶
- 视角数量影响:从1个视角增加到3个视角,QA准确率从41.3%提升到53.7%(Gemini 1.5 Flash),但超过3个视角后性能下降,可能因信息冗余超过模型处理能力
- 时间采样频率:从2帧增加到6帧,准确率从46.3%提升到53.7%,超过6帧后改善微弱
- 输入顺序鲁棒性:视角优先vs时间优先排序、是否包含时间戳信息,对结果影响很小(平均变化<1%),说明实验设计稳健
- 反事实数据测试:合成蜘蛛只有6条腿(真实8条)、球滚入向下孔洞后又滚出(违反物理定律)——所有先进MLLM都答错,说明它们依赖先验世界知识而非真正理解输入
亮点¶
- 首创性:首个系统评估MLLM在4D(动态3D)物体理解上能力的基准,填补了3D理解基准忽略时间维度、视频理解基准忽略多视角维度的空白
- 巧妙的盲过滤机制:用纯文本LLM过滤掉不需要视觉信息就能答对的QA对,确保问题真正需要视觉理解
- OOD测试能力:合成4D资产包含反事实物体和运动,为MLLM提供分布外(OOD)评估(训练数据以真实世界为主的MLLM无法依赖先验知识作弊)
- 揭示性能层级:清晰揭示MLLM能力的梯度——Appearance > Spatial > Temporal ≈ Action >> Counting,为改进方向提供了明确指导
- 开源模型vs闭源模型差距定位:外观理解差距小,但动作/时序理解差距大,为开源社区指明重点突破方向
局限性 / 可改进方向¶
- 4D表征局限:将4D物体表示为多视角视频虽然使评估成为可能,但丢失了点云、4DGS等原生3D/4D表征的几何信息,无法评估MLLM对原生4D表征的理解能力
- 数据规模有限:QA仅751对,Captioning仅580个物体,规模相对较小,可能不够代表4D物体的多样性
- 单物体场景:4D-Bench仅评估单个4D物体的理解,未涉及多物体交互、4D场景级理解
- 合成数据偏差:所有数据来自Objaverse-XL(合成数据),与真实世界4D扫描的domain gap可能影响结论的可迁移性
- 缺乏训练集:仅为评估基准,没有提供训练集来推动4D物体-语言理解模型的开发
- 潜在扩展:可结合4D生成(如4D Gaussian Splatting生成的数据)扩展数据规模;可增加多物体交互、物理推理等更复杂的子任务
与相关工作的对比¶
| 对比维度 | 4D-Bench | ScanQA/SceneVerse (3D基准) | MVBench/Video-MME (视频基准) |
|---|---|---|---|
| 空间维度 | 多视角3D | 3D点云/场景 | 单视角2D |
| 时间维度 | ✓ 动态运动 | ✗ 仅静态 | ✓ 时序变化 |
| 物体Focus | 物体级(单物体) | 场景级 | 场景级 |
| 数据类型 | 合成4D资产 | 真实3D扫描 | 真实视频 |
| OOD能力 | ✓ 反事实物体 | ✗ | ✗ |
相比T3Bench(评估文本到3D生成),4D-Bench关注的是对4D物体的语言理解而非生成。
启发与关联¶
- 4D理解的核心瓶颈是时序推理:MLLM在外观理解上已接近闭源水平,但时序/动作理解差距巨大。这说明当前视觉编码器的时序建模能力是主要瓶颈,更先进的temporal-aware视觉编码器可能是突破口
- 计数能力极弱:多视角物体计数仅37%准确率,暗示MLLM在跨视角一致性推理(cross-view correspondence)上极度薄弱,这与3D一致性理解直接相关
- 反事实数据是强evaluation信号:合成数据天然可以包含违反物理定律的场景,这为评估MLLM的"真正理解"vs"先验记忆"提供了强有力的手段
- 从评估到训练:4D-Bench揭示的能力短板(时序、计数、反事实)可以指导构造针对性的4D理解训练数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个4D物体理解MLLM基准,填补了重要空白,但基准论文的方法创新性相对有限
- 实验充分度: ⭐⭐⭐⭐⭐ 评估了14个MLLM(开源+闭源)、5个QA子任务、多种captioning指标,消融实验详尽(视角数、采样频率、输入顺序、反事实分析)
- 写作质量: ⭐⭐⭐⭐ 结构清晰,发现呈现有条理,图表丰富
- 价值: ⭐⭐⭐⭐ 揭示了MLLM在4D理解上的系统性弱点,对未来研究有重要指导意义