4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding¶

会议: ICCV 2025
arXiv: 2503.17827
代码: https://4dbench.github.io/ (有)
领域: 视频理解 / 多模态VLM
关键词: 4D理解, 多模态大语言模型, Benchmark, 多视角时序理解, 4D物体问答

一句话总结¶

提出 4D-Bench，首个评估多模态大语言模型对4D物体（具有时间演化的3D物体）理解能力的基准，包含4D物体问答（751 QA对）和4D物体描述（580物体×5标注）两大任务，发现即使SOTA的GPT-4o也仅达63%准确率（人类91%），揭示了MLLM在多视角时空理解上的巨大差距。

背景与动机¶

数字4D资产（动态3D物体）在数字孪生、增强现实、游戏等领域日益重要，用语言理解和交互4D物体的需求迫切。现有的MLLM在2D图像/视频理解上表现出色，但面对4D物体时存在独特挑战：

多视角歧义性：4D物体从不同视角呈现不同外观，某些部件在特定视角下被遮挡或模糊不清，需要跨视角整合信息
时间演化：物体的动态运动需要跨时间步的追踪和推理
数据稀缺：不像2D图像-文本数据在互联网上大量存在，大规模4D物体-文本数据极度匮乏
缺乏评估标准：此前没有专门评估MLLM理解4D物体能力的公开基准

现有基准的局限：3D语言理解基准（如ScanQA、SceneVerse）只关注静态3D场景，忽略运动信息；2D视频基准（如MVBench、Video-MME）忽略多视角理解。两者都无法全面评估4D物体的多视角时空理解能力。

核心问题¶

能否直接将先进的MLLM扩展到4D物体理解？ 现有MLLM（GPT-4o、Qwen2-VL等）已从海量文本、图像和视频数据中学习了丰富的世界知识。通过将4D物体表示为多视角视频，可以直接利用MLLM进行4D物体语言理解。但关键问题是：没有专门的评估基准，无法了解这些模型在4D物体理解方面的优势和局限，也就难以改进和释放其潜力。

方法详解¶

整体框架¶

4D-Bench 不是一个模型或方法，而是一个评估基准，包含两大核心任务：

输入：4D物体的多视角视频（从Objaverse-XL渲染，均匀选取 K=3 个视角，每个视角采样 N=6 帧，共 K×N=18 帧输入MLLM）
任务1 - 4D Object QA：给定多视角视频和四选一问题，评估MLLM的准确率
任务2 - 4D Object Captioning：给定多视角视频，要求MLLM生成描述，与5条人类标注对比

关键设计¶

4D Object QA 五大子任务：
Appearance（外观）：评估物体的视觉属性描述能力，挑战在于合成/虚构物体偏离训练数据分布，且需要跨视角整合外观信息
Action（动作）：评估理解物体活动和局部运动的能力，包括典型动作识别、细粒度运动检测、运动方向分析
Object Counting（物体计数）：在动态和空间复杂场景中进行精确计数，需要处理时间动态（物体出现/消失）和遮挡（需跨视角信息融合）
Spatial Relationship（空间关系）：理解多视角下的空间配置和物体关系
Temporal Relationship（时序关系）：理解物体的时间演化和顺序动作
4D Object Captioning 设计：
要求同时描述物体外观（appearance）和动作（action）
外观描述需聚合不同角度的视觉细节，动作描述需从多视角观察运动序列
每个4D物体配备5条独立人类标注caption
数据构建流程（三阶段清洗管线）：
数据采集：从Objaverse-XL渲染数万个动态3D物体的多视角视频（24个视角，每个视角最多125帧）
运动过滤：通过像素变化检测识别物体运动的时间边界，确保数据集只包含动态物体
视觉质量过滤：基于CLIP的质量分类器，手动标注数千张图像训练，利用8个视角的多数投票去除低质量物体
QA标注：混合标注策略——先由专业标注员手工设计164对高质量QA，后利用GPT-4o和Qwen2-VL生成QA对，经Qwen2-VL 7B验证 → 盲过滤（用纯文本LLM筛除无需视觉就能答对的QA） → 人工审核
Caption标注：人工精选580个代表性4D物体，5名标注员独立标注，审核员确保质量和多样性
评估指标设计：
QA：各子任务准确率 + 总体准确率
Captioning：传统指标（BLEU、ROUGE、METEOR、CIDEr）+ 嵌入指标（BERTScore、Sentence-BERT）+ LLM评估指标（GPT-Appearance分、GPT-Action分、GPT-Eval均分，0-5分）
论文重点关注GPT-based指标，因其与人类判断相关性更强

损失函数 / 训练策略¶

本文为Benchmark论文，不涉及模型训练。评估采用统一的采样策略：K=3视角、N=6帧，通过先视角后时间的顺序排列输入图像。

实验关键数据¶

4D Object QA 结果¶

模型	Object Counting	Temporal Rel.	Action	Spatial Rel.	Appearance	Overall
GPT-4o	44.09%	59.29%	63.55%	69.40%	77.21%	62.98%
LLaVA-Video 72B	54.33%	58.57%	57.48%	66.42%	77.21%	62.32%
LLaVA-OneVision 72B	49.61%	58.57%	60.75%	61.19%	76.47%	61.38%
Gemini 1.5 Pro	46.46%	58.57%	59.35%	64.18%	68.38%	59.52%
Qwen2-VL 72B	45.67%	55.71%	58.41%	61.19%	72.06%	58.72%
所有模型平均	37.29%	49.29%	49.37%	53.57%	63.92%	50.69%
人类基线	88.98%	89.29%	94.39%	91.04%	89.71%	91.08%

4D Object Captioning 结果（GPT指标）¶

模型	GPT-Appearance	GPT-Action	GPT-Eval
GPT-4o	3.507/5	3.258/5	3.382/5
GPT-4o mini	3.311/5	3.131/5	3.221/5
Gemini 1.5 Pro	3.311/5	2.983/5	3.147/5
Qwen2-VL 72B	3.324/5	2.791/5	3.057/5
所有MLLM平均	3.038/5	2.522/5	2.780/5
人类	3.772/5	3.879/5	3.826/5

消融实验要点¶

视角数量影响：从1个视角增加到3个视角，QA准确率从41.3%提升到53.7%（Gemini 1.5 Flash），但超过3个视角后性能下降，可能因信息冗余超过模型处理能力
时间采样频率：从2帧增加到6帧，准确率从46.3%提升到53.7%，超过6帧后改善微弱
输入顺序鲁棒性：视角优先vs时间优先排序、是否包含时间戳信息，对结果影响很小（平均变化<1%），说明实验设计稳健
反事实数据测试：合成蜘蛛只有6条腿（真实8条）、球滚入向下孔洞后又滚出（违反物理定律）——所有先进MLLM都答错，说明它们依赖先验世界知识而非真正理解输入

亮点¶

首创性：首个系统评估MLLM在4D（动态3D）物体理解上能力的基准，填补了3D理解基准忽略时间维度、视频理解基准忽略多视角维度的空白
巧妙的盲过滤机制：用纯文本LLM过滤掉不需要视觉信息就能答对的QA对，确保问题真正需要视觉理解
OOD测试能力：合成4D资产包含反事实物体和运动，为MLLM提供分布外（OOD）评估（训练数据以真实世界为主的MLLM无法依赖先验知识作弊）
揭示性能层级：清晰揭示MLLM能力的梯度——Appearance > Spatial > Temporal ≈ Action >> Counting，为改进方向提供了明确指导
开源模型vs闭源模型差距定位：外观理解差距小，但动作/时序理解差距大，为开源社区指明重点突破方向

局限性 / 可改进方向¶

4D表征局限：将4D物体表示为多视角视频虽然使评估成为可能，但丢失了点云、4DGS等原生3D/4D表征的几何信息，无法评估MLLM对原生4D表征的理解能力
数据规模有限：QA仅751对，Captioning仅580个物体，规模相对较小，可能不够代表4D物体的多样性
单物体场景：4D-Bench仅评估单个4D物体的理解，未涉及多物体交互、4D场景级理解
合成数据偏差：所有数据来自Objaverse-XL（合成数据），与真实世界4D扫描的domain gap可能影响结论的可迁移性
缺乏训练集：仅为评估基准，没有提供训练集来推动4D物体-语言理解模型的开发
潜在扩展：可结合4D生成（如4D Gaussian Splatting生成的数据）扩展数据规模；可增加多物体交互、物理推理等更复杂的子任务

与相关工作的对比¶

对比维度	4D-Bench	ScanQA/SceneVerse (3D基准)	MVBench/Video-MME (视频基准)
空间维度	多视角3D	3D点云/场景	单视角2D
时间维度	✓ 动态运动	✗ 仅静态	✓ 时序变化
物体Focus	物体级（单物体）	场景级	场景级
数据类型	合成4D资产	真实3D扫描	真实视频
OOD能力	✓ 反事实物体	✗	✗

相比T3Bench（评估文本到3D生成），4D-Bench关注的是对4D物体的语言理解而非生成。

启发与关联¶

4D理解的核心瓶颈是时序推理：MLLM在外观理解上已接近闭源水平，但时序/动作理解差距巨大。这说明当前视觉编码器的时序建模能力是主要瓶颈，更先进的temporal-aware视觉编码器可能是突破口
计数能力极弱：多视角物体计数仅37%准确率，暗示MLLM在跨视角一致性推理（cross-view correspondence）上极度薄弱，这与3D一致性理解直接相关
反事实数据是强evaluation信号：合成数据天然可以包含违反物理定律的场景，这为评估MLLM的"真正理解"vs"先验记忆"提供了强有力的手段
从评估到训练：4D-Bench揭示的能力短板（时序、计数、反事实）可以指导构造针对性的4D理解训练数据

评分¶

新颖性: ⭐⭐⭐⭐ 首个4D物体理解MLLM基准，填补了重要空白，但基准论文的方法创新性相对有限
实验充分度: ⭐⭐⭐⭐⭐ 评估了14个MLLM（开源+闭源）、5个QA子任务、多种captioning指标，消融实验详尽（视角数、采样频率、输入顺序、反事实分析）
写作质量: ⭐⭐⭐⭐ 结构清晰，发现呈现有条理，图表丰富
价值: ⭐⭐⭐⭐ 揭示了MLLM在4D理解上的系统性弱点，对未来研究有重要指导意义