Omni-Recon: Harnessing Image-Based Rendering for General-Purpose Neural Radiance Fields¶
会议: ECCV 2024
arXiv: 2403.11131
代码: 有
领域: 3D视觉
关键词: NeRF, 通用3D重建, 图像基渲染, 零样本场景理解, 实时渲染
一句话总结¶
提出Omni-Recon框架,通过基于图像的渲染(IBR)管线构建通用NeRF,利用解耦的几何/外观双分支设计,首次在单一模型中实现可泛化3D重建、零样本多任务场景理解和实时渲染、场景编辑等多种下游3D任务的适配。
研究背景与动机¶
NeRF在3D应用中展现出巨大潜力,但现有方法存在根本性矛盾:
流水线碎片化:不同的3D应用(跨场景泛化、实时渲染、场景理解等)需要不同的NeRF模型和流水线,每个目标任务都需要繁琐的训练和试错实验。例如,泛化式NeRF的即时重建与基于mesh光栅化的实时NeRF通常使用完全不同的管线,难以同时满足两种需求。
Per-scene优化瓶颈:传统NeRF依赖昂贵的per-scene训练,无法实现跨场景泛化。虽然泛化式NeRF设计可以跨场景泛化,但计算复杂度巨大,不适合需要实时渲染的应用场景。
场景理解扩展性差:理解新的场景属性(语义、边缘、关键点等)需要训练新的NeRF模型,随着属性种类增加不可扩展。现有泛化式方法在零样本场景理解和场景编辑方面的潜力尚未开发。
受基础模型(Foundation Models)的泛化和适应能力启发,作者提出核心洞察:一个设计良好的IBR管线在具备准确几何和外观估计能力时,可以将2D图像特征提升到3D空间,从而将广泛探索的2D任务自然延伸至3D世界。这一见解驱动了Omni-Recon的整体设计——通过精心解耦几何与外观来同时满足重建精度、实时性和多任务扩展性。
方法详解¶
整体框架¶
Omni-Recon基于图像基渲染(IBR),设计了包含两个解耦分支的通用NeRF骨干: - 复杂的Transformer几何分支(\(\mathbf{M}_{sdf}\)):渐进融合几何和外观特征,预测SDF - 轻量外观分支(\(\mathbf{M}_{color}\),仅3层MLP):预测源视角的混合权重
解耦设计的核心优势:几何分支可烘焙(bake)成mesh后丢弃,轻量外观分支作为shader继续工作实现实时渲染;同时blending权重可复用于零样本场景理解。
关键设计¶
1. 图像基渲染管线¶
给定\(N\)个源视角\(\{I_i\}_{i=1}^N\),通过CNN编码器提取特征\(\{\mathbf{F}_i\}_{i=1}^N \in \mathbb{R}^{H \times W \times C}\)。构建3D feature volume \(V \in \mathbb{R}^{M \times M \times M \times C}\)来聚合多视角几何信息(将体素中心投影到\(N\)个源视角,计算特征均值和方差并拼接,再通过3D U-Net增强)。几何和外观通过两个独立分支估计:
点辐射通过加权求和得到:\(\hat{\mathbf{c}} = \sum_{i=1}^N \omega_i \mathbf{c}_i\)。设计动机:源视角投影颜色已接近真实辐射,因此外观分支可以保持轻量(3层MLP)。
2. Transformer几何分支(三级渐进融合)¶
由 \(B=2\) 个block组成,每个block包含三个Transformer模块渐进融合特征:
- Geometry Transformer:交叉注意力,将几何体特征融合到输入中并建模射线上采样点间的遮挡关系:\(\mathbf{M}_{sdf}^{geo}(\mathbf{x}, \{\mathbf{v}_k\}) = \text{CrossAttention}(\mathbf{q}=\mathbf{x}, \mathbf{k}=\mathbf{v}=\{\mathbf{v}_k\}_{k=1}^K)\)
- Appearance Transformer:使用减法注意力(subtraction attention)将外观特征\(\{\mathbf{f}_i\}_{i=1}^N\)集成进几何特征,处理采样点与源视角间的遮挡。减法注意力更适合几何关系推理。
- Occlusion Transformer:自注意力,在射线上采样点间显式建模遮挡:\(\mathbf{M}_{sdf}^{occ}(\mathbf{x}) = \text{SelfAttention}(\mathbf{q}=\mathbf{k}=\mathbf{v}=\mathbf{x})\)
设计动机:正确处理两种遮挡效应是精确估计SDF的关键——采样点间的遮挡(哪个点在前面)和采样点与源视角间的遮挡(哪些投影有效)。
3. Predict-then-Blend零样本场景理解¶
核心假设:当几何和外观估计准确时,为辐射学习的blending权重\(\{\omega_i\}\)可以直接复用于其他任务——外观相似的区域倾向于共享相似的场景属性。
操作流程:(1) 用预训练2D模型在各源视角上生成预测\(\{\mathbf{P}_i\}\);(2) 复用RGB混合权重混合投影预测:\(\hat{\mathbf{p}} = \sum_{i=1}^N \omega_i \mathbf{p}_i\);(3) 通过NeuS体渲染得到像素级预测。相比传统"先渲染再预测"方案,本方法避免了渲染误差向2D模型的传播,并能利用多视角信息增强单目理解。
损失函数 / 训练策略¶
- \(\mathcal{L}_{color} = \frac{1}{R}\sum_{\mathbf{r}=1}^R \|\hat{\mathbf{C}}_\mathbf{r} - \mathbf{C}_\mathbf{r}\|_2^2\):L2 photometric loss
- \(\mathcal{L}_{depth} = \frac{1}{R}\sum_{\mathbf{r}=1}^R \|\hat{\mathbf{D}}_\mathbf{r} - \mathbf{D}_\mathbf{r}\|_2^2\):L2深度损失
- \(\beta = 1\),SDF到密度的转换采用NeuS方案
- 训练配置:\(N=4\)源视角,640×512分辨率,每批1024条射线
实验关键数据¶
主实验:DTU稀疏视角Mesh重建(Chamfer Distance ↓)¶
| 方法 | Mean | Scan24 | Scan37 | Scan65 | Scan83 | Scan110 | 说明 |
|---|---|---|---|---|---|---|---|
| COLMAP | 1.52 | 0.90 | 2.89 | 1.94 | 1.30 | 1.42 | 传统MVS |
| MVSNet | 1.22 | 1.05 | 2.52 | 1.52 | 1.29 | 0.66 | 深度MVS |
| VolRecon | 1.38 | 1.20 | 2.59 | 1.92 | 1.48 | 1.38 | 泛化式隐式 |
| ReTR | 1.17 | 1.05 | 2.31 | 1.52 | 1.35 | 0.77 | 前SOTA |
| Omni-Recon | 1.13 | 0.91 | 2.13 | 1.70 | 1.29 | 0.81 | 新SOTA,15场景中10个最优 |
渲染质量(PSNR ↑):Omni-Recon Mean 26.32 vs ReTR 25.59 (+0.73) vs VolRecon 24.58 (+1.74)。
消融实验:零样本场景理解 & 实时渲染¶
零样本场景理解对比:
| 数据集 | 策略 | Semantic mIoU↑ | Edge↓ | KeyPoint↓ | KeyPoint3D↓ |
|---|---|---|---|---|---|
| Replica | Render-then-Predict | 15.64 | 0.0456 | 0.1101 | 0.0470 |
| Replica | Predict-then-Blend | 32.11 | 0.0412 | 0.0774 | 0.0176 |
| ScanNet | Render-then-Predict | 41.32 | 0.0471 | 0.0568 | 0.0412 |
| ScanNet | Predict-then-Blend | 61.11 | 0.0434 | 0.0424 | 0.0197 |
实时渲染(DTU):
| 配置 | FPS | Mean PSNR | 说明 |
|---|---|---|---|
| VolRecon | 0.029 | 24.58 | baseline |
| ReTR | 0.024 | 25.59 | 最强baseline |
| Omni-Recon (无微调) | 71.3 | 22.96 | mesh+shader直接用 |
| Omni-Recon (微调10s) | 71.3 | 25.68 | 已超越ReTR |
| Omni-Recon (微调1min) | 71.3 | 28.34 | 显著超越 |
| Omni-Recon (微调5min) | 71.3 | 29.02 | +3.43 over ReTR |
关键发现¶
- 15个DTU场景中10个取得最优重建,Mean Chamfer 1.13达新SOTA
- 实时渲染71.3 FPS,比baseline提速>2458×;仅10秒微调即超越ReTR渲染质量
- Predict-then-Blend在ScanNet语义分割上mIoU比Render-then-Predict高19.79%
- PET微调后,语义分割mIoU超过SOTA方法SRay达5.20%
亮点与洞察¶
- 解耦设计的多功能性:几何/外观分支解耦是全文最精巧的设计——复杂分支保证精度,烘焙后丢弃换取速度;轻量分支同时充当shader和多任务桥梁
- IBR潜力被低估:论文揭示了IBR管线在构建通用3D管线中的核心价值,这一视角具有启发性
- blending权重复用:用颜色混合权重直接泛化到语义/边缘/关键点等任务,不需额外训练,既优雅又实用
局限与展望¶
- 实验以DTU/ScanNet等室内场景为主,对复杂户外场景的泛化效果有待验证
- 零样本理解质量依赖2D先验模型的预测准确度
- 实时渲染前需先通过TSDF提取mesh,mesh质量直接影响渲染效果
- 文本引导编辑需要迭代维护3D一致性,效率还有提升空间
相关工作与启发¶
- 解耦几何/外观的思路可推广到3DGS等其他3D表示
- Predict-then-Blend策略可结合更多2D基础模型(SAM、CLIP-LSeg等)扩展3D理解范围
- LoRA微调预训练NeRF的范式与NLP/CV的趋势一致
评分¶
- 新颖性: ⭐⭐⭐⭐ — IBR统一通用NeRF的思路和blending权重复用的insight很有创意
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖重建、渲染、理解、编辑四大任务,数据集和消融全面
- 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,图表丰富,动机阐述充分
- 实用价值: ⭐⭐⭐⭐ — 实时渲染能力和零样本理解具有显著应用价值
相关论文¶
- [ECCV 2024] BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream
- [ECCV 2024] GeometrySticker: Enabling Ownership Claim of Recolorized Neural Radiance Fields
- [ECCV 2024] G2fR: Frequency Regularization in Grid-Based Feature Encoding Neural Radiance Fields
- [ECCV 2024] LaRa: Efficient Large-Baseline Radiance Fields
- [ECCV 2024] Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation