OGNI-DC: Robust Depth Completion with Optimization-Guided Neural Iterations¶

会议: ECCV 2024
arXiv: 2406.11711
代码: https://github.com/princeton-vl/OGNI-DC
领域: 其他
关键词: 深度补全, 可微优化, 迭代精炼, 泛化性, 深度梯度

一句话总结¶

提出 OGNI-DC，通过"优化引导的神经迭代"（OGNI）框架，结合 ConvGRU 迭代精炼深度梯度场和可微深度积分器（DDI）来实现深度补全，同时达到 SOTA 精度和强泛化能力。

研究背景与动机¶

深度补全（Depth Completion）任务是从 RGB 图像和稀疏深度图生成稠密深度图，广泛应用于自动驾驶、机器人和增强现实。现有方法面临精度与鲁棒性的两难困境：

传统优化方法（如 Zhang et al.）：通过手工设计的能量项建立全局优化问题，泛化性好但精度不足

深度学习方法（NLSPN、CFormer 等）：直接回归深度值，精度高但在场景分布偏移或稀疏度变化时常常灾难性失败

核心洞察：深度梯度（相邻像素的深度差）比绝对深度更容易从局部窗口推断，因此更容易泛化。同时，通过显式优化约束使预测深度与稀疏观测一致，可以天然适应不同稀疏模式。

方法详解¶

整体框架¶

OGNI-DC 的 pipeline 包含三个主要组件： 1. Backbone 特征提取：基于 CompletionFormer，从 RGB+稀疏深度的拼接中提取 1/4 和全分辨率特征 2. OGNI 中间深度预测：ConvGRU 迭代精炼深度梯度场 + DDI 积分为深度图，共 \(T=5\) 次迭代 3. 上采样与增强：凸上采样 + DySPN 空间传播网络输出全分辨率深度

关键设计¶

预测深度梯度而非深度值：网络预测 \(\hat{\mathbf{G}} = \{\hat{\mathbf{G}}^x, \hat{\mathbf{G}}^y\} \in \mathbb{R}^{2 \times H/4 \times W/4}\)，即 x/y 方向的深度差分。深度梯度可从局部窗口推断，比全局深度更容易学习和泛化。
可微深度积分器 DDI：将深度梯度积分为深度图的核心组件。形式化为线性最小二乘问题：

\[\hat{\mathbf{D}} = \arg\min_{\mathbf{D}} \left( E_G(\mathbf{D}, \hat{\mathbf{G}}) + \alpha \cdot E_O(\mathbf{D}, \mathbf{O}, \mathbf{M}) \right)\]

其中 \(E_G\) 约束深度差分与预测梯度一致，\(E_O\) 约束深度值与稀疏观测一致（\(\alpha=5.0\)）。使用共轭梯度法高效求解，无需显式存储巨大的系统矩阵 \(\mathbf{A}^\top\mathbf{A}\)。

DDI 的可微性通过链式法则实现：反向传播时复用同一共轭梯度求解器计算 \(\partial\hat{\mathbf{D}}/\partial\hat{\mathbf{G}}\)，内存开销远低于直接 trace 整个求解过程。

ConvGRU 迭代精炼：采用 RAFT 风格的 ConvGRU 对深度梯度进行迭代更新：

\[\Delta\hat{\mathbf{G}}, \mathbf{h}_t = \text{ConvGRU}(\hat{\mathbf{F}}^{1/4}, \mathbf{h}_{t-1}, \hat{\mathbf{D}}^{1/4}_{t-1}, \hat{\mathbf{G}}_{t-1})\]

关键点：精炼与积分紧耦合——ConvGRU 接收上一轮 DDI 的深度积分结果作为输入，从而感知其梯度输出的后果，提供更强的引导和正则化。

初始化加速：由于每次迭代的深度梯度仅有微小变化，DDI 可用上一轮的解作为初始猜测，将延迟降低最高 62.1%。
随机遮掩数据增强：训练时对 50% 样本随机丢弃 0~100% 的已知深度值，增强稀疏度泛化性。

损失函数 / 训练策略¶

对所有 \(T\) 轮迭代的输出进行监督，使用衰减因子 \(\gamma=0.9\)：

\[\mathcal{L}_\mathbf{D} = \sum_{t=1}^T \gamma^{T-t} \left( \|\hat{\mathbf{D}}_t - \mathbf{D}\|_2^2 + \|\hat{\mathbf{D}}_t - \mathbf{D}\|_1 + \|\hat{\mathbf{D}}^{up}_t - \mathbf{D}\|_2^2 + \|\hat{\mathbf{D}}^{up}_t - \mathbf{D}\|_1 \right)\]

\[\mathcal{L}_\mathbf{G} = \sum_{t=1}^T \gamma^{T-t} \|\hat{\mathbf{G}}_t - \mathbf{G}\|_1, \quad \mathcal{L} = \mathcal{L}_\mathbf{D} + \lambda \cdot \mathcal{L}_\mathbf{G}\]

深度用 \(L_1+L_2\) 联合损失，梯度用 \(L_1\) 损失，\(\lambda=1.0\)。NYUv2 上单卡 3090 训练 36 epochs（~3天），KITTI 上 8×L40 训练 100 epochs（~1周）。

实验关键数据¶

主实验 — 零样本泛化¶

测试数据集	指标	OGNI-DC	NLSPN	CFormer	VPP4DC	提升
VOID1500	MAE↓	0.175	0.298	0.261	0.253	-30.8% vs VPP4DC
VOID500	MAE↓	0.198	0.381	0.385	0.307	-35.5% vs VPP4DC
VOID150	MAE↓	0.261	0.492	0.487	0.397	-34.2% vs VPP4DC
DDAD	RMSE↓	6.876	11.646	9.606	10.247	-25.0% vs LRRU

域内性能 (NYUv2 / KITTI)¶

数据集	指标	OGNI-DC	CFormer	LRRU	BEV@DC
NYUv2	RMSE↓	0.087m	0.090	0.091	0.089
NYUv2	REL↓	0.011	0.012	0.011	0.012
KITTI	MAE↓	182.29mm	183.88	189.96	189.44
KITTI	iRMSE↓	1.81	1.89	1.87	1.83

消融实验¶

配置	NYUv2 RMSE↓	NYUv2 MAE↓	KITTI RMSE↓	说明
CFormer+DySPN baseline	123.6	43.2	825.1	基线
No DDI (直接预测深度)	128.6	44.9	824.0	无优化层
OGNI-DC (Ours)	112.2	38.0	813.7	完整模型
1 GRU iteration	114.0	39.9	820.1	单次迭代
3 GRU iterations	112.4	38.2	818.6	3次迭代
ConvRNN (替换 GRU)	112.7	38.1	817.7	无门控机制
DDI zeros init	-	-	-	延迟高 62.1%
DDI pre-filled init	-	-	-	延迟高 56.3%

关键发现¶

DDI 是泛化性的核心：移除 DDI 导致 NYUv2 MAE 从 38.0mm 恶化到 44.9mm
5次迭代是精度-速度平衡点：1→5 次迭代 MAE 从 39.9 降到 38.0，7 次无进一步提升
单一模型跨稀疏度泛化：在 KITTI 16-Lines 上，MAE 比 SpAgNet 降低 25.5%（451.9 vs 606.9）
推理速度略慢于基线（FPS 下降 ~38%），但精度和泛化性的提升值得这一代价

亮点与洞察¶

深度梯度 + 优化层的组合是精妙设计：预测局部量（梯度）而非全局量（深度），结合显式约束（DDI），同时获得深度学习的精度和优化方法的鲁棒性
DDI 的可微实现非常巧妙：反向传播复用共轭梯度求解器，且前一轮解作为热启动加速收敛
首次将 DROID-SLAM 式的耦合优化-迭代精炼范式引入单视图任务
随机遮掩的数据增强简单而有效，使模型在未见过的稀疏度下仍然工作良好

局限与展望¶

极端稀疏场景（如仅5个观测点）下表现略逊于 SpAgNet，因为深度梯度积分中的误差会在大范围无观测区域累积
推理速度有一定开销（DDI 求解耗时），可探索更快的求解器或近似方法
工作在 1/4 分辨率上进行迭代精炼，全分辨率细节依赖 SPN，可能丢失一些边缘信息
DDI 中的 \(\alpha=5.0\) 对所有场景固定，自适应的权重可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 深度梯度预测+可微积分器的设计理念独特，将优化和学习优雅结合
实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、跨域/跨稀疏度泛化、全面消融，实验极其充分
写作质量: ⭐⭐⭐⭐ — 技术细节清晰，DDI 的数学推导完整，但整体篇幅偏长
价值: ⭐⭐⭐⭐⭐ — 同时解决精度和鲁棒性是实际系统最需要的，代码开源