WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild¶

会议: NeurIPS 2025
arXiv: 2506.13030
代码: 项目页面
领域: 3D视觉
关键词: 新视角合成, 多视角扩散, 外观建模, 场景级NVS, 野外数据

一句话总结¶

提出WildCAT3D，通过显式建模图像的全局外观条件，扩展多视角扩散模型（CAT3D）从野外互联网数据（如旅游照片）中学习场景级新视角合成，同时支持外观控制生成。

研究背景与动机¶

新视角合成（NVS）近年来在物体级场景上取得了显著进展，特别是以CAT3D为代表的多视角扩散范式。然而，场景级NVS仍面临重大挑战：

核心矛盾：

多视角训练数据稀缺：干净的多视角数据主要来自合成渲染或众包视频中的孤立物体，数据多样性和许可证都受限。

野外数据丰富但不一致：互联网上有大量场景图像（如旅游照片），但同一场景的不同照片在光照、天气、遮挡等方面差异很大，与现有多视角扩散架构不兼容。

本文的核心insight：不一致的数据可以通过显式解耦"内容"和"外观"来利于训练——在去噪目标视角时，模型能"偷看"每个视角的粗粒度外观信息（如天气、宽高比），但不泄漏精细细节。推理时则将源视角的外观嵌入复制到所有目标视角，确保生成的一致性。

方法详解¶

整体框架¶

WildCAT3D基于CAT3D框架扩展，核心改动有两处：（1）添加外观编码分支，（2）引入warp条件机制。总体输入形状为 \(v \times (2k + d + 7) \times n \times n\)，其中 \(k+7\) 是CAT3D原始通道（latent+相机嵌入+二值掩码），\(d\) 是外观嵌入通道，\(k\) 是warp latent通道。模型建模分布 \(p(\mathbf{I}^u | \mathbf{I}^o, \mathbf{c}^a, A_\phi(\mathbf{I}^a), \mathbf{w}^o)\)。

关键设计¶

可泛化外观编码器（Generalizable Appearance Encoder）：一个轻量卷积网络，将图像latent压缩为低维向量（\(d=8\)维），作为信息瓶颈——编码天气、光照、宽高比等粗粒度全局外观，而无法泄漏精细图像内容。训练时该嵌入被复制到 \(n \times n\) 空间位置并拼接到CAT3D输入通道，允许模型在训练中观察到所有视角（包括被加噪的未观测视角）的外观条件。编码器与去噪目标联合训练，在推理时可泛化到新场景。
外观感知条件引导（Appearance-Aware CFG）：直接对外观条件应用标准CFG会导致过饱和伪影（因为外观嵌入与图像亮度/色彩平衡相关）。本文设计了定制的CFG方案：在"无条件"设置中，保留外观条件但丢弃其他观测视角条件。即 \(p^{(\text{uncond})}(\mathbf{I}^u | \mathbf{c}^u, A_\phi(\mathbf{I}^a))\)，模型在条件和无条件设置中都能"偷看"所有视角的外观嵌入。
外观条件推理：推理时选取第一个观测视角的外观嵌入 \(\mathbf{a}_0 = A_\phi(\mathbf{I}_0)\)，复制到所有未观测视角的外观通道中。利用这一机制还可实现外观迁移——注入外部图像的外观嵌入，或通过CLIP文本检索找到匹配外观的图像进行文本驱动的外观控制。
Warp条件机制（Warp Conditioning）：解决单视角NVS固有的尺度模糊问题。用DepthAnything估计源视角深度，通过RANSAC对齐到COLMAP点云获得度量尺度，将源视角像素反投影到3D点云再渲染到每个目标相机视角。Warp图像的VAE latent作为额外条件通道注入，提示场景的正确放置位置。

损失函数 / 训练策略¶

先在CO3D和Re10K数据集上训练基础CAT3D模型
再在MegaScenes和CO3D上微调为完整WildCAT3D模型
使用与原始LDM相同的去噪损失
默认 \(v=8\) 视角槽位，1个观测+7个未观测随机场景视角
推理时可增加到 \(v=16\) 用于视频生成

实验关键数据¶

主实验（单视角NVS基准）¶

方法	DTU PSNR↑	DTU FID↓	Mip-NeRF360 PSNR↑	Mip-NeRF360 FID↓
ZeroNVS (released)	5.799	160.0	6.999	137.0
MS NVS	8.795	85.96	14.06	64.41
WildCAT3D	10.77	57.32	14.77	42.17

方法	Re10K PSNR↑	Re10K FID↓	MegaScenes PSNR↑	MegaScenes FID↓
MS NVS	17.22	60.01	13.40	11.58
WildCAT3D	21.58	24.70	13.92	9.871

消融实验¶

配置	DTU PSNR↑	DTU FID↓	MipNeRF PSNR↑	MipNeRF FID↓	说明
WildCAT3D	10.77	57.32	14.77	42.17	完整模型
-warp	9.795	-	-	-	去掉warp条件
-warp-app	-	-	-	-	去掉warp和外观 → 输出不一致

关键发现¶

WildCAT3D在所有数据集上均超越先前SOTA，且训练使用的数据源更少
在分布外数据集（DTU物体级、Mip-NeRF 360场景级）上优势尤其显著
去掉warp条件后视角对齐明显变差，去掉外观建模后输出图像不一致
外观嵌入可自然聚类为有意义的组（如夜景、蓝天、室内等），证明编码器学到了有用表示
支持外观插值和文本控制的外观编辑等新应用

亮点与洞察¶

将"数据不一致"转化为优势的思路非常优雅：通过显式建模外观变化，不一致的野外数据反而成为丰富的训练资源
外观编码器设计为信息瓶颈（仅8维），既够编码全局外观又不泄漏内容，精妙的工程选择
定制的CFG策略避免过饱和问题，体现了对扩散模型行为的深入理解
Warp条件机制通过注入粗粒度几何约束解决尺度模糊，且不强制约束允许模型纠正深度错误

局限与展望¶

训练时依赖COLMAP的SfM点云进行深度对齐，对SfM失败的场景不适用
外观建模粒度较粗（全局向量），局部外观差异（如部分阴影）可能无法精确控制
目前仅展示了单视角输入的场景级NVS，多视角输入的场景效果未充分评估
生成质量仍受限于底层LDM的能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将野外旅游照片引入多视角扩散模型训练，外观解耦设计巧妙
实验充分度: ⭐⭐⭐⭐ 多数据集评估+消融+应用展示全面
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述系统
价值: ⭐⭐⭐⭐⭐ 解锁了丰富的野外数据用于场景级3D生成，开拓性强