Extrapolated Urban View Synthesis Benchmark¶

会议: ICCV2025
arXiv: 2412.05256
代码: 项目主页
领域: autonomous_driving
关键词: novel view synthesis, 3D Gaussian Splatting, benchmark, extrapolation, autonomous driving

一句话总结¶

提出首个外推式城市视图合成（EUVS）基准，利用多遍历/多车辆/多相机公开数据集系统评估外推场景下 3DGS 及 NeRF 方法的泛化能力，揭示当前方法严重过拟合训练视角。

研究背景与动机¶

核心问题：自动驾驶的视觉仿真依赖新视角合成（NVS），3D Gaussian Splatting 等方法在插值（interpolation）评估下表现优异，但实际驾驶中车辆视角变化远超训练分布（外推场景），现有方法在外推设置下的表现缺少系统评估
现状不足：
- 现有评估几乎都只在高度相关的训练/测试视角间做插值测试，训练/测试分布极为接近
- 少数研究尝试了外推视角合成（如 GGS、VEGS、FreeSim），但受限于缺乏真实数据做定量评估，只能做定性分析
- 现有方法仅聚焦单一难度，没有系统性的多层级评估框架
动机：构建一个标准化的、包含多种难度等级的外推 NVS 基准，用真实数据实现定量+定性全面评估，推动更鲁棒的 NVS 方法发展

方法详解¶

数据来源与构建¶

EUVS benchmark 整合三个公开自动驾驶数据集：

数据集	特性	用途
nuPlan	1200 小时驾驶数据，4 个城市，多遍历 + 多相机	Level 1（多车道变道）和 Level 2（多相机旋转）
Argoverse 2	1000 个标注 3D 场景，6 个美国城市	Level 1 和 Level 3（跨路径遍历）
MARS	多车辆协同 + 多遍历，同一区域异步重访	Level 3（十字路口、T 型路口等）

总量：90,810 帧，345 个视频，104 个场景。

评估框架：三级难度¶

论文将外推视角变化分为三个难度等级，对应不同驾驶场景：

Level 1（仅平移）：车辆位置偏移但朝向不变，对应变道场景。使用多遍历的不同车道数据训练，在邻近车道做测试
Level 2（仅旋转）：训练和测试在同一位置但朝向不同。使用 nuPlan 的前三后三共 6 个相机训练，两个侧向相机测试
Level 3（平移 + 旋转）：位置和朝向同时变化，最具挑战性。使用同一路口不同路径遍历的数据（如十字路口的不同方向进入路线）

场景预处理¶

使用 COLMAP 进行多帧位姿估计和稀疏重建，为 3DGS 提供初始化
使用 SegFormer 分割并遮蔽可移动物体（训练和评估阶段均排除动态物体）

评估的基线方法（9类）¶

Vanilla 3DGS：标准 3D Gaussian Splatting
3DGM：利用多遍历一致性区分瞬态/永久元素
GaussianPro (GSPro)：多帧几何优化引导高斯致密化，平面化结构
2DGS：将 3D 体积投射为 2D 平面高斯盘
PGSR：无偏深度渲染 + 多视角正则化
VEGS：扩散先验引导增强视角，减少浮动伪影
Feature 3DGS：嵌入语义特征的并行 N 维高斯光栅化
Zip-NeRF：抗锯齿网格 NeRF，多采样 + 距离归一化
Instant-NGP：多分辨率哈希编码的快速 NeRF

评估指标¶

图像质量：PSNR、SSIM、LPIPS
语义相似度：DINOv2 特征余弦相似度（Feature Cosine Similarity）
几何精度：RMSE、δ₁.₂₅（深度估计指标）

实验关键数据¶

三级难度下的性能衰退（所有方法平均值）¶

难度	PSNR 下降	SSIM 下降	LPIPS 恶化	特征相似度下降
Level 1（仅平移）	24.6%	12.8%	25.3%	11.2%
Level 2（仅旋转）	25.6%	14.7%	62.5%	14.8%
Level 3（平移+旋转）	30.6%	19.5%	70.0%	35.9%

→ 难度越高性能衰退越严重，Level 3 下 LPIPS 恶化高达 70%，说明感知质量严重退化。

各方法 Level 1 测试集表现（代表性数据）¶

方法	PSNR↑	SSIM↑	LPIPS↓
GSPro	16.39	0.7189	0.2450
3DGM	16.35	0.7248	0.2542
3DGS	16.37	0.7203	0.2599
VEGS	15.88	0.7047	0.3062

Level 2 关键发现¶

VEGS 凭借扩散先验在旋转场景大幅领先：PSNR 23.33（比 3DGS 的 19.53 高 19.4%），因为扩散模型能补全未见区域
Zip-NeRF 在训练集上 PSNR 高达 29.06，但测试集暴跌至 17.36（下降 40.3%），过拟合最严重

Level 3 关键发现¶

所有方法 PSNR 均低于 15，无一方法有显著优势
Feature 3DGS 在 LPIPS 上最优（0.3816），但绝对值仍然很差
2DGS 表现最差（PSNR 仅 11.36），平面表示无法应对复杂城市场景的大视角变化

深度估计对比（Level 1）¶

3DGM 在大多数深度指标上最优（RMSE=0.301, δ₁=0.651），而 VEGS 虽然 SqRel 最低但整体深度精度欠佳。

多遍历数据量影响¶

使用 GSPro 在 Level 1 上逐步增加训练遍历次数，发现 PSNR 和 SSIM 随遍历数增加持续改善后趋于饱和，说明更多视觉数据确实有助于外推合成。

亮点与洞察¶

首个外推 NVS 定量基准：填补了长期以来只能做定性评估的空白，三级难度设计覆盖了真实驾驶中的典型场景（变道→换相机→跨路口）
扩散先验并非万能：VEGS 在旋转场景（Level 2）表现突出，但在 Level 3 下同样崩溃，说明扩散先验能补偿未见区域但不能从根本上解决大视角偏移
几何改进收益有限：平面化方法（2DGS、PGSR）在路面重建上更好，但处理复杂纹理对象时反而更差；椭球方法（3DGS、3DGM）在高纹理区域更优但路面过拟合
GS vs NeRF 各有所长：隐式表示（NeRF）擅长低纹理区域（道路、天空）的平滑过渡，显式表示（GS）更擅长保留高频细节（车道标线、栏杆），暗示混合表示是潜在方向
光照不一致是额外挑战：GS-W 通过分离内在/动态外观特征处理光照变化后，训练/测试指标均大幅提升，但外推性能下降仍然显著

局限与展望¶

静态场景为主：基准测试剔除了动态物体，OmniRe 动态基线的初步结果（PSNR 仅 15.32）表明动态外推更难，但未深入探索
数据量有限：虽然 9 万帧规模可观，但每个场景的独立训练集仍较小，更大规模训练数据可能显著改善外推泛化
缺少生成式基线：未评估 DriveDreamer4D、Vista 等基于世界模型/视频生成的方法，这些方法可能天然更擅长外推
无深度真值：深度评估使用伪真值（Depth Anything），引入额外噪声
混合表示方向未实践：论文指出椭球+平面混合可能更优，但未实现和验证
COLMAP 初始化瓶颈：多遍历数据的位姿配准依赖 COLMAP，大场景下的配准精度和效率仍是限制因素

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评