跳转至

OGNI-DC: Robust Depth Completion with Optimization-Guided Neural Iterations

会议: ECCV 2024
arXiv: 2406.11711
代码: https://github.com/princeton-vl/OGNI-DC
领域: 其他
关键词: 深度补全, 可微优化, 迭代精炼, 泛化性, 深度梯度

一句话总结

提出 OGNI-DC,通过"优化引导的神经迭代"(OGNI)框架,结合 ConvGRU 迭代精炼深度梯度场和可微深度积分器(DDI)来实现深度补全,同时达到 SOTA 精度和强泛化能力。

研究背景与动机

深度补全(Depth Completion)任务是从 RGB 图像和稀疏深度图生成稠密深度图,广泛应用于自动驾驶、机器人和增强现实。现有方法面临精度与鲁棒性的两难困境

传统优化方法(如 Zhang et al.):通过手工设计的能量项建立全局优化问题,泛化性好但精度不足

深度学习方法(NLSPN、CFormer 等):直接回归深度值,精度高但在场景分布偏移或稀疏度变化时常常灾难性失败

核心洞察:深度梯度(相邻像素的深度差)比绝对深度更容易从局部窗口推断,因此更容易泛化。同时,通过显式优化约束使预测深度与稀疏观测一致,可以天然适应不同稀疏模式。

方法详解

整体框架

OGNI-DC 的 pipeline 包含三个主要组件: 1. Backbone 特征提取:基于 CompletionFormer,从 RGB+稀疏深度的拼接中提取 1/4 和全分辨率特征 2. OGNI 中间深度预测:ConvGRU 迭代精炼深度梯度场 + DDI 积分为深度图,共 \(T=5\) 次迭代 3. 上采样与增强:凸上采样 + DySPN 空间传播网络输出全分辨率深度

关键设计

  1. 预测深度梯度而非深度值:网络预测 \(\hat{\mathbf{G}} = \{\hat{\mathbf{G}}^x, \hat{\mathbf{G}}^y\} \in \mathbb{R}^{2 \times H/4 \times W/4}\),即 x/y 方向的深度差分。深度梯度可从局部窗口推断,比全局深度更容易学习和泛化。

  2. 可微深度积分器 DDI:将深度梯度积分为深度图的核心组件。形式化为线性最小二乘问题:

\[\hat{\mathbf{D}} = \arg\min_{\mathbf{D}} \left( E_G(\mathbf{D}, \hat{\mathbf{G}}) + \alpha \cdot E_O(\mathbf{D}, \mathbf{O}, \mathbf{M}) \right)\]

其中 \(E_G\) 约束深度差分与预测梯度一致,\(E_O\) 约束深度值与稀疏观测一致(\(\alpha=5.0\))。使用共轭梯度法高效求解,无需显式存储巨大的系统矩阵 \(\mathbf{A}^\top\mathbf{A}\)

DDI 的可微性通过链式法则实现:反向传播时复用同一共轭梯度求解器计算 \(\partial\hat{\mathbf{D}}/\partial\hat{\mathbf{G}}\),内存开销远低于直接 trace 整个求解过程。

  1. ConvGRU 迭代精炼:采用 RAFT 风格的 ConvGRU 对深度梯度进行迭代更新:
\[\Delta\hat{\mathbf{G}}, \mathbf{h}_t = \text{ConvGRU}(\hat{\mathbf{F}}^{1/4}, \mathbf{h}_{t-1}, \hat{\mathbf{D}}^{1/4}_{t-1}, \hat{\mathbf{G}}_{t-1})\]

关键点:精炼与积分紧耦合——ConvGRU 接收上一轮 DDI 的深度积分结果作为输入,从而感知其梯度输出的后果,提供更强的引导和正则化。

  1. 初始化加速:由于每次迭代的深度梯度仅有微小变化,DDI 可用上一轮的解作为初始猜测,将延迟降低最高 62.1%。

  2. 随机遮掩数据增强:训练时对 50% 样本随机丢弃 0~100% 的已知深度值,增强稀疏度泛化性。

损失函数 / 训练策略

对所有 \(T\) 轮迭代的输出进行监督,使用衰减因子 \(\gamma=0.9\)

\[\mathcal{L}_\mathbf{D} = \sum_{t=1}^T \gamma^{T-t} \left( \|\hat{\mathbf{D}}_t - \mathbf{D}\|_2^2 + \|\hat{\mathbf{D}}_t - \mathbf{D}\|_1 + \|\hat{\mathbf{D}}^{up}_t - \mathbf{D}\|_2^2 + \|\hat{\mathbf{D}}^{up}_t - \mathbf{D}\|_1 \right)\]
\[\mathcal{L}_\mathbf{G} = \sum_{t=1}^T \gamma^{T-t} \|\hat{\mathbf{G}}_t - \mathbf{G}\|_1, \quad \mathcal{L} = \mathcal{L}_\mathbf{D} + \lambda \cdot \mathcal{L}_\mathbf{G}\]

深度用 \(L_1+L_2\) 联合损失,梯度用 \(L_1\) 损失,\(\lambda=1.0\)。NYUv2 上单卡 3090 训练 36 epochs(~3天),KITTI 上 8×L40 训练 100 epochs(~1周)。

实验关键数据

主实验 — 零样本泛化

测试数据集 指标 OGNI-DC NLSPN CFormer VPP4DC 提升
VOID1500 MAE↓ 0.175 0.298 0.261 0.253 -30.8% vs VPP4DC
VOID500 MAE↓ 0.198 0.381 0.385 0.307 -35.5% vs VPP4DC
VOID150 MAE↓ 0.261 0.492 0.487 0.397 -34.2% vs VPP4DC
DDAD RMSE↓ 6.876 11.646 9.606 10.247 -25.0% vs LRRU

域内性能 (NYUv2 / KITTI)

数据集 指标 OGNI-DC CFormer LRRU BEV@DC
NYUv2 RMSE↓ 0.087m 0.090 0.091 0.089
NYUv2 REL↓ 0.011 0.012 0.011 0.012
KITTI MAE↓ 182.29mm 183.88 189.96 189.44
KITTI iRMSE↓ 1.81 1.89 1.87 1.83

消融实验

配置 NYUv2 RMSE↓ NYUv2 MAE↓ KITTI RMSE↓ 说明
CFormer+DySPN baseline 123.6 43.2 825.1 基线
No DDI (直接预测深度) 128.6 44.9 824.0 无优化层
OGNI-DC (Ours) 112.2 38.0 813.7 完整模型
1 GRU iteration 114.0 39.9 820.1 单次迭代
3 GRU iterations 112.4 38.2 818.6 3次迭代
ConvRNN (替换 GRU) 112.7 38.1 817.7 无门控机制
DDI zeros init - - - 延迟高 62.1%
DDI pre-filled init - - - 延迟高 56.3%

关键发现

  • DDI 是泛化性的核心:移除 DDI 导致 NYUv2 MAE 从 38.0mm 恶化到 44.9mm
  • 5次迭代是精度-速度平衡点:1→5 次迭代 MAE 从 39.9 降到 38.0,7 次无进一步提升
  • 单一模型跨稀疏度泛化:在 KITTI 16-Lines 上,MAE 比 SpAgNet 降低 25.5%(451.9 vs 606.9)
  • 推理速度略慢于基线(FPS 下降 ~38%),但精度和泛化性的提升值得这一代价

亮点与洞察

  1. 深度梯度 + 优化层的组合是精妙设计:预测局部量(梯度)而非全局量(深度),结合显式约束(DDI),同时获得深度学习的精度和优化方法的鲁棒性
  2. DDI 的可微实现非常巧妙:反向传播复用共轭梯度求解器,且前一轮解作为热启动加速收敛
  3. 首次将 DROID-SLAM 式的耦合优化-迭代精炼范式引入单视图任务
  4. 随机遮掩的数据增强简单而有效,使模型在未见过的稀疏度下仍然工作良好

局限与展望

  1. 极端稀疏场景(如仅5个观测点)下表现略逊于 SpAgNet,因为深度梯度积分中的误差会在大范围无观测区域累积
  2. 推理速度有一定开销(DDI 求解耗时),可探索更快的求解器或近似方法
  3. 工作在 1/4 分辨率上进行迭代精炼,全分辨率细节依赖 SPN,可能丢失一些边缘信息
  4. DDI 中的 \(\alpha=5.0\) 对所有场景固定,自适应的权重可能进一步提升性能

相关工作与启发

  • DROID-SLAM / DPVO:耦合优化+迭代精炼的高层思想来源,但 OGNI-DC 首次应用于单视图任务
  • RAFT:ConvGRU 迭代精炼架构的灵感来源
  • CompletionFormer:作为 backbone 使用
  • SPN 系列 (NLSPN, DySPN):空间传播网络用于深度增强
  • 启发:局部量预测 + 显式优化约束的范式可推广到法线估计、光流等任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 深度梯度预测+可微积分器的设计理念独特,将优化和学习优雅结合
  • 实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、跨域/跨稀疏度泛化、全面消融,实验极其充分
  • 写作质量: ⭐⭐⭐⭐ — 技术细节清晰,DDI 的数学推导完整,但整体篇幅偏长
  • 价值: ⭐⭐⭐⭐⭐ — 同时解决精度和鲁棒性是实际系统最需要的,代码开源

相关论文