跳转至

LaRa: Efficient Large-Baseline Radiance Fields

会议: ECCV 2024
arXiv: 2407.04699
代码: https://apchenstu.github.io/LaRa/ (有)
领域: 3D视觉
关键词: 大基线重建, 前馈辐射场, 高斯体素, 分组注意力, 2D Gaussian Splatting

一句话总结

提出LaRa前馈重建模型,通过高斯体积(Gaussian Volume)表示和分组注意力层(Group Attention Layer)统一局部与全局推理,仅需4张图像即可从大基线视角重建360°辐射场,且仅用4×A100训练2天即可超越LGM等费时方法。

研究背景与动机

领域现状: 神经辐射场在逐场景优化和小基线设置下已取得优秀效果,但在前馈(feed-forward)大基线重建方面仍面临挑战。

现有痛点: - 基于特征匹配的方法(MVSNeRF, MuRF)依赖图像重叠区域,无法处理大基线 - 基于全局注意力的方法(LGM, GRM)忽略了3D重建的局部性,需32×A100级GPU资源 - 缺乏3D归纳偏置导致重建模糊

核心矛盾: 全局注意力能建模长程依赖但计算昂贵且忽视局部几何约束 vs. 局部匹配高效但无法处理大视角差

本文目标: 用有限计算资源(学术级GPU)实现高质量大基线前馈3D重建

切入角度: 将体素分成局部组进行组内交叉注意力(模拟局部匹配),再用3D CNN传播组间信息(实现全局协调)

核心 idea: 用分组注意力在transformer中统一局部特征匹配与全局信息传播,以高效的方式实现大基线辐射场重建。

方法详解

整体框架

给定 \(M=4\) 张图像及相机参数,LaRa通过三步输出Gaussian Volume:

  1. 特征提取: DINO编码器提取2D特征,通过Plücker射线注入相机信息,反投影到3D特征体积 \(\mathbf{V}_f\)
  2. 体积变换器: 分组注意力层逐步更新可学习嵌入体积 \(\mathbf{V}_e\),输出高斯体积 \(\mathbf{V}_{\mathcal{G}}\)
  3. 粗-精解码: 从体素特征解码2D高斯参数,经高效光栅化渲染高分辨率图像
\[\mathbf{V}_{\mathcal{G}} = \{\mathcal{G}_i^k\}_{k=1}^K = \mathbf{f}(\mathbf{v}; \mathbf{I}, \boldsymbol{\pi})\]

关键设计

  1. 高斯体积表示(Gaussian Volume): 每个体素存储 \(K=2\) 个2D高斯基元,每个基元包含不透明度 \(\alpha\)、切向量 \(\mathbf{t}\)、缩放 \(\mathbf{S}\)、球谐系数和位移偏移 \(\Delta \in [-1,1]^3\)。基元位置为 \(\mathbf{p}_i^k = \mathbf{v}_i + r \cdot \Delta_i^k\),其中 \(r = 1/32\) 为最大位移范围。设计动机是将无序点集预测问题结构化为体素内的局部偏移预测,降低学习难度。同时使用2D Gaussian Splatting(而非3DGS)以便进行表面正则化和网格提取。

  2. 分组注意力层(Group Attention Layer): 将体积展开为 \(G=16\) 个局部组,仅在组内执行交叉注意力,然后用3D CNN在组间传播信息。核心公式:

\[\dot{\mathbf{V}}_e^{g,j} = \text{GroupCrossAttn}(\text{LN}(\mathbf{V}_e^{g,j}), \mathbf{V}_f^g) + \mathbf{V}_e^{g,j}\]
\[\ddot{\mathbf{V}}_e^{g,j} = \text{MLP}(\text{LN}(\dot{\mathbf{V}}_e^{g,j})) + \dot{\mathbf{V}}_e^{g,j}\]
\[\mathbf{V}_e^{j+1} = \text{3DCNN}(\text{LN}(\ddot{\mathbf{V}}_e^j)) + \ddot{\mathbf{V}}_e^j\]

三个子层各带残差连接,共12层堆叠。不同组在batch维度并行处理,大幅提升训练效率。关键洞察:\(G=1\)(全局注意力)需22天训练30 epochs,而 \(G=16\) 仅需2天且效果更好。

  1. 粗-精解码(Coarse-Fine Decoding):

    • 粗模块: 轻量MLP将体素特征解码为2D高斯参数,渲染得到RGB/深度/透明度图
    • 精模块: 将高斯基元中心投影到粗渲染结果和原始图像上采样特征,使用位移特征 \(|\hat{\mathbf{D}}_{\mathbf{p}} - z_{\mathbf{p}}|\)(渲染深度 vs 基元深度之差)实现遮挡感知推理,通过交叉注意力+MLP预测残差球谐系数:
\[\text{SH}_{i,k}^{\text{fine}} = \text{SH}_{i,k}^{\text{coarse}} + \text{SH}_{i,k}^{\text{residuals}}\]

设计动机:DINO编码器和注意力层会丢失高频纹理信息,精模块通过直接查询原始图像特征来弥补。

  1. Plücker射线调制: 使用Plücker射线(相机位置与射线方向的叉积)而非外参/内参矩阵来编码相机信息,通过AdaLN注入2D特征。优势是参数化独立于物体尺度、相机位置和焦距,增强泛化性。

损失函数 / 训练策略

\[\mathcal{L} = \mathcal{L}_{\text{MSE}}(\mathcal{I}, \hat{\mathcal{I}}) + \mathcal{L}_{\text{SSIM}}(\mathcal{I}, \hat{\mathcal{I}}) + \mathcal{L}_{\text{Reg}}\]

正则化项(15 epoch后启用):

\[\mathcal{L}_{\text{Reg}} = \gamma_d \mathcal{L}_d + \gamma_n \mathcal{L}_n\]
  • \(\mathcal{L}_d = \sum_{i,j} \omega_i \omega_j |z_i - z_j|\):蒸馏损失,集中射线权重到表面(\(\gamma_d=1000\)
  • \(\mathcal{L}_n = \sum_i \omega_i(1 - \mathbf{n}_i^\top \mathbf{N})\):法线一致性损失(\(\gamma_n=0.2\)

训练:AdamW, lr=\(2\times10^{-4}\), 余弦退火,50 epochs(每epoch 50K iter),4×A100-40G。125M可训练参数。Objaverse数据集264K场景,K-means选4个输入视角,8个视角用于监督。

实验关键数据

主实验 - 新视角合成(4输入视角)

方法 Gobjaverse PSNR↑ GSO PSNR↑ Co3D PSNR↑ Gobjaverse LPIPS↓
MVSNeRF 14.48 15.21 12.94 0.1856
MuRF 14.05 12.89 11.60 0.3018
LGM (32×A100-80G) 19.67 23.67 13.81 0.1576
Ours-fast (2天, 4×A100-40G) 25.30 26.79 21.56 0.1027
Ours (3.5天) 26.14 27.65 21.64 0.0932

消融实验 - 分组数与模块效果

设计变体 Gobjaverse PSNR↑ GSO PSNR↑ 几何精度(0.01)↑
G=4(大组/少分组) 22.27 23.06 31.0%
G=8 23.80 25.30 42.8%
w/o \(\mathcal{L}_{\text{Reg}}\) 26.16 27.71 45.6%
仅粗模块 25.06 26.28 52.2%
Full model (G=16) 25.30 26.79 52.2%

关键发现

  • 在所有数据集上以巨大优势超越所有基线:Gobjaverse上PSNR 26.14 vs LGM的19.67(+32.9%)
  • 计算效率极高:4×A100-40G (2天) vs LGM的32×A100-80G (GPU时数差32倍)
  • 在真实数据Co3D上泛化良好(21.64),而LGM因依赖固定相机-物体距离仅有13.81
  • 分组注意力 \(G=16\) vs \(G=4\) 显著提升(+3 PSNR),因为局部attention更符合3D匹配本质
  • 去掉正则化后渲染指标反而提升,但几何质量下降且出现浮体
  • 粗-精解码带来约+0.5 PSNR的纹理细节提升

亮点与洞察

  • 分组注意力层是关键贡献:将3D重建的局部匹配本质融入transformer设计,比暴力全局注意力更高效且更好
  • Plücker射线调制使模型对场景尺度和焦距变化鲁棒,这是在Co3D等无约束数据上泛化的关键
  • 粗-精解码中的位移特征 \(|\hat{D} - z|\) 巧妙解决了遮挡推理问题
  • 体素内偏移取代绝对坐标预测是高效的设计,将无序点集生成转化为结构化的回归问题
  • 训练资源需求极低(学术可复现),是对LGM等工业级方法的有力回应

局限与展望

  • 体积分辨率固定为 \(64^3\),可能限制大场景/细节的表示能力
  • 仅展示了bounded物体重建,未验证unbounded/室外场景
  • 每个体素仅2个高斯基元,对薄结构和半透明物体可能不足
  • 虽然训练高效,但体积transformer在推理时的显存占用仍受分辨率限制
  • 依赖DINO特征作为图像编码器,对不在DINO训练分布内的风格图像可能效果退化

相关工作与启发

  • MVSNeRF: 代表性的cost volume + 体渲染方法,限于小基线
  • LGM / GRM: 同期工作,全局transformer生成3DGS,效果好但资源消耗巨大
  • 2D Gaussian Splatting: 本文的渲染基元,比3DGS更利于表面建模和网格提取
  • 启发: 分组注意力策略可泛化到其他3D任务(如点云分割、3D检测中的体积transformer)

评分

  • 新颖性: ⭐⭐⭐⭐ — 分组注意力+高斯体积的组合在大基线重建中效果显著
  • 实验充分度: ⭐⭐⭐⭐ — 多数据集 + 零样本泛化 + 网格提取 + 详细消融
  • 写作质量: ⭐⭐⭐⭐ — 框架图清晰,各组件逻辑连贯
  • 价值: ⭐⭐⭐⭐⭐ — 效果强、训练经济、可复现性高,对前馈3D重建方向极具参考价值

相关论文