跳转至

Omni-Recon: Harnessing Image-Based Rendering for General-Purpose Neural Radiance Fields

会议: ECCV 2024
arXiv: 2403.11131
代码:
领域: 3D视觉
关键词: NeRF, 通用3D重建, 图像基渲染, 零样本场景理解, 实时渲染

一句话总结

提出Omni-Recon框架,通过基于图像的渲染(IBR)管线构建通用NeRF,利用解耦的几何/外观双分支设计,首次在单一模型中实现可泛化3D重建、零样本多任务场景理解和实时渲染、场景编辑等多种下游3D任务的适配。

研究背景与动机

NeRF在3D应用中展现出巨大潜力,但现有方法存在根本性矛盾:

流水线碎片化:不同的3D应用(跨场景泛化、实时渲染、场景理解等)需要不同的NeRF模型和流水线,每个目标任务都需要繁琐的训练和试错实验。例如,泛化式NeRF的即时重建与基于mesh光栅化的实时NeRF通常使用完全不同的管线,难以同时满足两种需求。

Per-scene优化瓶颈:传统NeRF依赖昂贵的per-scene训练,无法实现跨场景泛化。虽然泛化式NeRF设计可以跨场景泛化,但计算复杂度巨大,不适合需要实时渲染的应用场景。

场景理解扩展性差:理解新的场景属性(语义、边缘、关键点等)需要训练新的NeRF模型,随着属性种类增加不可扩展。现有泛化式方法在零样本场景理解和场景编辑方面的潜力尚未开发。

受基础模型(Foundation Models)的泛化和适应能力启发,作者提出核心洞察:一个设计良好的IBR管线在具备准确几何和外观估计能力时,可以将2D图像特征提升到3D空间,从而将广泛探索的2D任务自然延伸至3D世界。这一见解驱动了Omni-Recon的整体设计——通过精心解耦几何与外观来同时满足重建精度、实时性和多任务扩展性。

方法详解

整体框架

Omni-Recon基于图像基渲染(IBR),设计了包含两个解耦分支的通用NeRF骨干: - 复杂的Transformer几何分支\(\mathbf{M}_{sdf}\)):渐进融合几何和外观特征,预测SDF - 轻量外观分支\(\mathbf{M}_{color}\),仅3层MLP):预测源视角的混合权重

解耦设计的核心优势:几何分支可烘焙(bake)成mesh后丢弃,轻量外观分支作为shader继续工作实现实时渲染;同时blending权重可复用于零样本场景理解。

关键设计

1. 图像基渲染管线

给定\(N\)个源视角\(\{I_i\}_{i=1}^N\),通过CNN编码器提取特征\(\{\mathbf{F}_i\}_{i=1}^N \in \mathbb{R}^{H \times W \times C}\)。构建3D feature volume \(V \in \mathbb{R}^{M \times M \times M \times C}\)来聚合多视角几何信息(将体素中心投影到\(N\)个源视角,计算特征均值和方差并拼接,再通过3D U-Net增强)。几何和外观通过两个独立分支估计:

\[s = \mathbf{M}_{sdf}(\{\mathbf{f}_i\}_{i=1}^N, V), \quad \{\omega_i\}_{i=1}^N = \mathbf{M}_{color}(\{\mathbf{f}_i\}_{i=1}^N, \mathbf{d})\]

点辐射通过加权求和得到:\(\hat{\mathbf{c}} = \sum_{i=1}^N \omega_i \mathbf{c}_i\)。设计动机:源视角投影颜色已接近真实辐射,因此外观分支可以保持轻量(3层MLP)。

2. Transformer几何分支(三级渐进融合)

\(B=2\) 个block组成,每个block包含三个Transformer模块渐进融合特征:

  • Geometry Transformer:交叉注意力,将几何体特征融合到输入中并建模射线上采样点间的遮挡关系:\(\mathbf{M}_{sdf}^{geo}(\mathbf{x}, \{\mathbf{v}_k\}) = \text{CrossAttention}(\mathbf{q}=\mathbf{x}, \mathbf{k}=\mathbf{v}=\{\mathbf{v}_k\}_{k=1}^K)\)
  • Appearance Transformer:使用减法注意力(subtraction attention)将外观特征\(\{\mathbf{f}_i\}_{i=1}^N\)集成进几何特征,处理采样点与源视角间的遮挡。减法注意力更适合几何关系推理。
  • Occlusion Transformer:自注意力,在射线上采样点间显式建模遮挡:\(\mathbf{M}_{sdf}^{occ}(\mathbf{x}) = \text{SelfAttention}(\mathbf{q}=\mathbf{k}=\mathbf{v}=\mathbf{x})\)

设计动机:正确处理两种遮挡效应是精确估计SDF的关键——采样点间的遮挡(哪个点在前面)和采样点与源视角间的遮挡(哪些投影有效)。

3. Predict-then-Blend零样本场景理解

核心假设:当几何和外观估计准确时,为辐射学习的blending权重\(\{\omega_i\}\)可以直接复用于其他任务——外观相似的区域倾向于共享相似的场景属性。

操作流程:(1) 用预训练2D模型在各源视角上生成预测\(\{\mathbf{P}_i\}\);(2) 复用RGB混合权重混合投影预测:\(\hat{\mathbf{p}} = \sum_{i=1}^N \omega_i \mathbf{p}_i\);(3) 通过NeuS体渲染得到像素级预测。相比传统"先渲染再预测"方案,本方法避免了渲染误差向2D模型的传播,并能利用多视角信息增强单目理解。

损失函数 / 训练策略

\[\mathcal{L} = \mathcal{L}_{color} + \beta \mathcal{L}_{depth}\]
  • \(\mathcal{L}_{color} = \frac{1}{R}\sum_{\mathbf{r}=1}^R \|\hat{\mathbf{C}}_\mathbf{r} - \mathbf{C}_\mathbf{r}\|_2^2\):L2 photometric loss
  • \(\mathcal{L}_{depth} = \frac{1}{R}\sum_{\mathbf{r}=1}^R \|\hat{\mathbf{D}}_\mathbf{r} - \mathbf{D}_\mathbf{r}\|_2^2\):L2深度损失
  • \(\beta = 1\),SDF到密度的转换采用NeuS方案
  • 训练配置:\(N=4\)源视角,640×512分辨率,每批1024条射线

实验关键数据

主实验:DTU稀疏视角Mesh重建(Chamfer Distance ↓)

方法 Mean Scan24 Scan37 Scan65 Scan83 Scan110 说明
COLMAP 1.52 0.90 2.89 1.94 1.30 1.42 传统MVS
MVSNet 1.22 1.05 2.52 1.52 1.29 0.66 深度MVS
VolRecon 1.38 1.20 2.59 1.92 1.48 1.38 泛化式隐式
ReTR 1.17 1.05 2.31 1.52 1.35 0.77 前SOTA
Omni-Recon 1.13 0.91 2.13 1.70 1.29 0.81 新SOTA,15场景中10个最优

渲染质量(PSNR ↑):Omni-Recon Mean 26.32 vs ReTR 25.59 (+0.73) vs VolRecon 24.58 (+1.74)。

消融实验:零样本场景理解 & 实时渲染

零样本场景理解对比

数据集 策略 Semantic mIoU↑ Edge↓ KeyPoint↓ KeyPoint3D↓
Replica Render-then-Predict 15.64 0.0456 0.1101 0.0470
Replica Predict-then-Blend 32.11 0.0412 0.0774 0.0176
ScanNet Render-then-Predict 41.32 0.0471 0.0568 0.0412
ScanNet Predict-then-Blend 61.11 0.0434 0.0424 0.0197

实时渲染(DTU)

配置 FPS Mean PSNR 说明
VolRecon 0.029 24.58 baseline
ReTR 0.024 25.59 最强baseline
Omni-Recon (无微调) 71.3 22.96 mesh+shader直接用
Omni-Recon (微调10s) 71.3 25.68 已超越ReTR
Omni-Recon (微调1min) 71.3 28.34 显著超越
Omni-Recon (微调5min) 71.3 29.02 +3.43 over ReTR

关键发现

  1. 15个DTU场景中10个取得最优重建,Mean Chamfer 1.13达新SOTA
  2. 实时渲染71.3 FPS,比baseline提速>2458×;仅10秒微调即超越ReTR渲染质量
  3. Predict-then-Blend在ScanNet语义分割上mIoU比Render-then-Predict高19.79%
  4. PET微调后,语义分割mIoU超过SOTA方法SRay达5.20%

亮点与洞察

  • 解耦设计的多功能性:几何/外观分支解耦是全文最精巧的设计——复杂分支保证精度,烘焙后丢弃换取速度;轻量分支同时充当shader和多任务桥梁
  • IBR潜力被低估:论文揭示了IBR管线在构建通用3D管线中的核心价值,这一视角具有启发性
  • blending权重复用:用颜色混合权重直接泛化到语义/边缘/关键点等任务,不需额外训练,既优雅又实用

局限与展望

  • 实验以DTU/ScanNet等室内场景为主,对复杂户外场景的泛化效果有待验证
  • 零样本理解质量依赖2D先验模型的预测准确度
  • 实时渲染前需先通过TSDF提取mesh,mesh质量直接影响渲染效果
  • 文本引导编辑需要迭代维护3D一致性,效率还有提升空间

相关工作与启发

  • 解耦几何/外观的思路可推广到3DGS等其他3D表示
  • Predict-then-Blend策略可结合更多2D基础模型(SAM、CLIP-LSeg等)扩展3D理解范围
  • LoRA微调预训练NeRF的范式与NLP/CV的趋势一致

评分

  • 新颖性: ⭐⭐⭐⭐ — IBR统一通用NeRF的思路和blending权重复用的insight很有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖重建、渲染、理解、编辑四大任务,数据集和消融全面
  • 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,图表丰富,动机阐述充分
  • 实用价值: ⭐⭐⭐⭐ — 实时渲染能力和零样本理解具有显著应用价值

相关论文