MVGBench: a Comprehensive Benchmark for Multi-view Generation Models¶

会议: ICCV 2025
arXiv: 2507.00006
代码: 项目页面
领域: 3D视觉
关键词: 多视图生成, 3D一致性, benchmark, 3DGS, 视觉语言模型评估

一句话总结¶

提出 MVGBench——多视图生成模型的综合评估框架，创新性地引入基于 3DGS 自一致性的 3D 一致性指标（无需 3D GT），系统评估了 12 个 SOTA 方法在最佳性能、泛化和鲁棒性三方面的表现，并基于分析提出的最佳实践构建了新方法 ViFiGen。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：多视图生成 (MVG) 模型是当前 3D 内容创建的核心驱动力，但 评估方法严重滞后，存在三大问题：

与 GT 比较不合理: 生成模型采样自解空间分布，可能与 GT 不同但仍然正确；现有 PSNR/SSIM 逐视图独立评估忽略了 3D 一致性

方法不可比: 不同 MVG 使用不同的相机设置（焦距、距离、仰角），在各自的 GT 下评估产生不可比较的数值

评估维度不足: 未覆盖泛化到真实图像的能力、对输入扰动的鲁棒性等重要方面

核心洞察: 如果生成的多视图图像是 3D 一致的，那么从不相交子集分别重建的 3DGS 应该是相似的。基于此提出 自一致性 指标，无需 3D GT。

方法详解¶

整体框架¶

MVGBench 评估三个方面： - 最佳设置性能: 每个方法使用各自最优相机配置 - 泛化到真实图像: 在人工标注的 CO3D、MVImgnet 数据集上评估 - 鲁棒性: 对仰角、方位角、光照变化的敏感性

关键设计¶

3D 一致性指标（自一致性）:
- 给定 MVG 生成的 \(N\) 个视图，分为两个子集 \(\mathcal{I}_1, \mathcal{I}_2\)
- 分别用 3DGS 拟合得到 \(\mathcal{G}_1, \mathcal{G}_2\)
- 几何一致性:
  - Chamfer Distance (CD): 从高斯重采样点云计算（利用协方差矩阵采样，非高斯中心），降采样至 60k 点
  - 深度误差 \(e_d\): 同一视角渲染深度图，计算 L1 差异
- 纹理一致性: 同一视角渲染 RGB 图，计算 cPSNR、cSSIM、cLPIPS
- 优势: 可在真实图像上定量评估（无需 3D GT），对不同方法公平（各自用最优相机设置）
公平对比的对齐方案:
- 合成数据: 标准化 3D 物体至单位立方体，用各方法各自的训练相机设置渲染输入，重建的 3DGS 已对齐
- 真实数据: 用 ICP + 均匀缩放将不同方法的 3DGS 对齐到参考 3DGS
- 对不同输出视图数的方法，允许子集间有少量重叠以对齐 3DGS 拟合精度上界
语义和图像质量指标:
- oFID: 对象级 FID（非全数据集 FID），每个物体独立计算 FID 后取平均，与人类偏好更一致（Pearson 0.69）
- IQ-vlm: 用预训练 VLM 评估图像质量（二值 yes/no），与人类评分强相关
- 语义一致性: VLM 评估类别、颜色、风格是否与输入一致
评估数据集:
- 最佳性能: GSO (100物体), OmniObject3D (202物体)
- 泛化: CO3D (102图像), MVImgnet (230图像)，人工选择正面视图并标注仰角
- 鲁棒性: GSO30 在不同仰角/方位角/光照下渲染

损失函数 / 训练策略¶

ViFiGen（基于分析发现的最佳实践）： - 采用视频扩散模型架构（视频先验提供更好的 3D 一致性-质量平衡） - 用 ConvNextV2 替代 CLIP 编码输入图像（保留更多细节） - 改进相机嵌入设计

实验关键数据¶

主实验¶

12 个方法在 CO3D（真实）和 GSO（合成）上的性能对比：

方法	CO3D CD↓	CO3D cPSNR↑	CO3D IQ-vlm↑	GSO CD↓	GSO cPSNR↑	GSO IQ-vlm↑
Zero123	12.06	13.16	0.38	10.99	17.37	0.73
SyncDreamer	3.04	25.30	0.12	2.99	26.83	0.53
SV3D	3.48	23.72	0.29	3.47	26.75	0.77
Hi3D	5.60	20.92	0.35	3.29	24.60	0.87
ViFiGen (Ours)	3.02	25.82	0.29	3.15	28.93	0.82

消融实验¶

指标鲁棒性验证（不同视图数/相机设置的 GT 一致性分数）：

视图数	相机设置	CD↓	cPSNR↑	cSSIM↑
16	[17]	1.993	30.281	0.924
18	[9]	2.119	30.688	0.934
20	[37]	2.133	30.448	0.925
20	[54]	2.091	30.800	0.932
相对标准差	-	0.026	0.006	0.004

指标验证: 相对标准差 <8%，说明指标对视图数和相机设置不敏感。

VLM 指标与人类偏好对齐（400 张图、10 用户）：Pearson 置信区间 0.95；oFID 与人类排名匹配度 0.77 vs 传统 FID 的 0.50。

关键发现¶

3D 一致性与图像质量的 trade-off: 现有方法中无一占据 "右上角"（两者都最佳），一致但缺细节 vs 有细节但不一致
合成-真实差距显著: 所有方法在真实图像上性能大幅下降，特别是 IQ-vlm
视频模型更优: SV3D、ViFiGen 等视频扩散模型在一致性和质量间取得更好平衡
关键设计选择:
- 输入图像编码器: ConvNextV2 > CLIP（保留更多细节）
- 相机嵌入: 显式相机参数编码优于隐式方法
- 视频先验: 时空注意力提供自然的 3D 一致性约束
鲁棒性普遍不足: 大多数方法对仰角、方位角变化敏感

亮点与洞察¶

评估范式创新: 自一致性指标是评估生成模型 3D 一致性的优雅方案，可推广到其他 3D 生成任务
系统分析价值: 12 个方法、4 个数据集、3 个评估维度的大规模对比分析，识别出关键设计选择
从高斯采点而非用中心: 利用协方差矩阵重采样计算 CD，比直接用高斯中心更准确

局限与展望¶

3DGS 拟合本身引入的误差可能混淆一致性评估（虽然实验显示影响 <8%）
仅评估物体级 MVG，未覆盖场景级生成
VLM 评估受限于当前 VLM 的能力，可能随 VLM 更新而变化
未评估文本引导的 MVG 方法

评分¶

新颖性: ⭐⭐⭐⭐ (自一致性指标创新)
技术深度: ⭐⭐⭐⭐ (完整的评估框架设计)
实验充分度: ⭐⭐⭐⭐⭐ (12方法×4数据集×3维度)
实用价值: ⭐⭐⭐⭐⭐ (Benchmark 工具对社区价值极高)