NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes¶

会议: ICCV 2025
arXiv: 2503.16375
领域: 3D生成·场景生成
关键词: 无界场景生成, 向量集表示, outpainting, 扩散模型, 户外场景, 3D生成

一句话总结¶

NuiScene 提出使用向量集（vector set）编码场景块的高效方法，配合显式 outpainting 扩散模型实现快速无界户外场景生成，并策划了 NuiScene43 高质量户外场景数据集。

研究背景与动机¶

大规模户外场景生成对开放世界游戏、电影 CGI、VR 模拟至关重要。与室内场景生成相比，户外场景面临独特挑战：

高度差异巨大：从矮小房屋到摩天大楼，场景块高度变化剧烈。先前方法使用 triplane 等空间结构化潜变量，需要统一尺寸，导致高建筑被压缩丢失细节或内存爆炸

推理速度慢：现有方法依赖 RePaint 的重采样式 inpainting 进行 outpainting，需要额外扩散步

缺乏高质量户外数据：语义驾驶数据集网格质量差，Objaverse 场景缺乏统一尺度

方法详解¶

1. 数据策划¶

从 Objaverse 筛选 43 个高质量场景，通过以下步骤处理： - 使用 DuoduoCLIP 嵌入过滤场景 - 标注相对尺度建立统一缩放 - 清理地面几何并统一地面厚度 - 场景分割为 \((50, h_{vox}, 50)\) 大小的块

2. 向量集 VAE¶

编码器：对每个场景块均匀采样 \(N_p\) 个点云 \(\mathbf{p} \in \mathbb{R}^{N_p \times 3}\)，通过交叉注意力聚合为紧凑表示：

\[\mathbf{z}^{\mathbf{p}} = \mathcal{E}(\mathbf{p}) \in \mathbb{R}^{V \times c}\]

其中 \(V=16\) 为向量数，\(c=64\) 为通道数。相比 triplane 的 \(V=3 \times 4^2=48\)，向量集仅需 16 个 token，压缩率更高。

防止后验坍塌：从同一块采样两个点云 \(\mathbf{p}, \mathbf{q}\) 并约束嵌入一致：\(\mathcal{L}_{emb} = (\mathbf{z}^{\mathbf{p}} - \mathbf{z}^{\mathbf{q}})^2\)

高度预测：学习高度嵌入 \(\mathbf{e}_h\) 查询潜变量以预测块高度，推理时用于裁剪不必要的体素查询。

解码器：向量集通过交叉注意力预测占据率 \(\hat{o}_r = \text{FC}(\text{CA}(\mathbf{f}_{out}, \text{PE}(\mathbf{r})))\)

总损失：\(\mathcal{L} = \lambda_{kl}\mathcal{L}_{kl} + \lambda_{emb}\mathcal{L}_{emb} + \lambda_{ce}\mathcal{L}_{ce} + \lambda_{height}\mathcal{L}_{height}\)

3. 显式 Outpainting 扩散模型¶

不同于 RePaint 的重采样方式，显式训练扩散模型在 \(2 \times 2\) 网格上生成四个块，通过条件掩码和已生成块嵌入进行条件化。

四种条件配置对应栅格扫描中的所有场景： - \(\{0,0,0,0\}\)：无条件生成 - \(\{1,0,1,0\}\)：左列已知 - \(\{1,1,0,0\}\)：上行已知 - \(\{1,1,1,0\}\)：仅右下角待生成

训练目标：\(\mathbb{E}[\|\boldsymbol{\epsilon} - \epsilon_\theta((\mathbf{X}_t \oplus \mathbf{C}), t)\|_2^2]\)

实验¶

VAE 重建质量¶

方法	输出分辨率/S	IoU↑	CD↓	F-Score↑
triplane	3×32²/6	0.734	0.168	0.508
triplane	3×64²/6	0.940	0.064	0.831
vecset	-	0.989	0.055	0.864

向量集在所有指标上全面超越 triplane，IoU 达 0.989。

扩散生成质量与效率¶

方法	FPD↓	KPD↓	token 数	训练时间	显存
triplane	1.406	2.589	192	27.6h	24.4GB
vecset	0.571	0.951	64	11.1h	10.4GB

向量集扩散模型训练快 2.5 倍，显存占用仅 42%，同时 FPD 降低 59%。

Outpainting 速度对比¶

方法	生成 21×21 块时间 (s)
RePaint (r=5)	1022.20
显式 outpainting	215.92

显式 outpainting 快约 4.7 倍，且无需重采样即可保持连贯性。

亮点与洞察¶

向量集 vs triplane：向量集用更少的 token 实现更好的压缩，且天然适配不同高度的场景块
显式 outpainting：通过训练四种条件配置，避免了 RePaint 的重采样开销
跨场景融合：在多场景联合训练后，模型能生成混合城堡与摩天楼的场景，展现了泛化能力

局限性¶

数据集小（43 个场景），限制了泛化性
缺乏全局上下文，无法进行大范围规划（如道路网络布局）
块间连接偶尔出现断裂或噪声伪影
无条件/标签控制能力

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	4
写作质量	4
综合	4.0