PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency¶

会议: ICCV 2025
arXiv: 2507.07374
代码: https://github.com/Wang-xjtu/PacGDC
领域: 机器人
关键词: 深度补全, 标签高效, 投影歧义, 数据合成, 泛化性

一句话总结¶

提出 PacGDC，利用 2D 到 3D 投影中固有的形状歧义和位置歧义来合成大量伪几何数据（通过多个深度基础模型作为尺度操纵器），以最小的标注代价实现可泛化的深度补全，在零样本和少样本设置中均达到 SOTA。

研究背景与动机¶

领域现状：深度补全旨在从配对的图像和稀疏深度测量中推断稠密的度量深度图。现有方法（NLSPN、CFormer 等）在训练域内表现良好，但在跨域场景中泛化能力差。近年来泛化深度补全方法（G2-MonoDepth、SPNet、OMNI-DC）尝试解决这一问题，但依赖大规模的稠密度量深度标注。

现有痛点：收集大规模稠密深度标注非常耗时费力（需要 LiDAR、RGB-D 传感器等专业设备），这严重限制了泛化模型的训练数据覆盖面。

核心矛盾：泛化深度补全需要训练数据覆盖尽可能多的真实世界分布（不同场景语义、尺度、稀疏模式），但获取多样化的带标注数据成本极高。

本文目标 在最小标注代价下最大化训练数据覆盖面，使深度补全模型在未见过的域上也能工作。

切入角度：作者观察到 2D 到 3D 投影存在固有歧义——同一张 2D 图像可以对应多个不同的 3D 几何场景。将这种歧义分解为形状歧义（同一 2D 物体可对应不同 3D 形状）和位置歧义（同一 3D 形状可有不同尺寸和位置），同时深度补全的两种输入（图像提供形状线索、稀疏深度提供位置线索）恰好与这两种歧义一致。

核心 idea：利用深度基础模型的"尺度不准确"这一特性，将其作为尺度操纵器来合成大量尺度各异但形状一致的伪深度标签，极大扩充训练数据的几何多样性。

方法详解¶

整体框架¶

PacGDC 是一个数据合成 pipeline，不改变推理时的模型架构。输入是少量标注的三元组 \(\mathcal{T} = \{I, p, d\}\)（图像、稀疏深度、稠密深度），输出是大量合成的伪三元组 \(\hat{\mathcal{T}}\)。Pipeline 流程为：

用多个深度基础模型对图像生成伪稠密深度图
通过插值和重定位策略扩充几何多样性
从伪稠密深度图中采样伪稀疏深度
用合成数据训练泛化深度补全模型（基于 SPNet 框架）

关键设计¶

投影歧义与一致性的理论基础:
- 功能：建立利用投影歧义增强数据多样性的理论框架
- 核心思路：在针孔相机模型中，\(d_i P^{-1} [u_i, v_i, 1]^T = [x_i, y_i, z_i]^T\)。对深度应用缩放因子 \(\alpha_i\) 不改变 2D 像素位置，但生成新的 3D 几何 \(\hat{d}_i = \alpha_i d_i\)。这意味着可以通过操纵深度的尺度来生成无限多的合法 3D 几何。同时，形状一致性（形状与图像语义匹配）和位置一致性（稀疏深度约束空间位置）保证了合成数据的质量
- 设计动机：之前的方法视投影歧义为问题，而本文反过来将其作为数据增强的核心机制
基于深度基础模型的伪标签合成:
- 功能：利用单目深度估计基础模型（DepthAnything、DepthPro）生成形状一致但尺度不同的伪深度标签
- 核心思路：基础模型能从图像 \(I\) 稳健地预测与语义一致的稠密深度 \(\hat{d} = \mathcal{R}(I)\)，但其预测的尺度通常不准确（这正是利用的特性）。多个基础模型的预测加上插值和重定位操作：\(\hat{d} = \theta(\sum_{t=1}^{L} \lambda^t \mathcal{R}^t(I) + (1 - \sum_{t=1}^{L} \lambda^t) d)\)，其中 \(\lambda^t\) 是随机插值系数，\(\theta\) 是随机重定位因子
- 设计动机：单一模型只能生成一种尺度的预测，通过多模型 + 随机插值/重定位，可以在形状一致的前提下最大化几何分布的覆盖范围
无标签数据扩展:
- 功能：引入无标注图像（如 SA1B 的 390K 图像）进一步扩充语义和场景多样性
- 核心思路：当 \(\sum \lambda^t = 1\) 时，公式退化为纯基础模型预测的加权组合，不需要真实标注 \(d\)。从图像到伪深度再到采样伪稀疏深度，形成完整的伪三元组
- 设计动机：PacGDC 的核心洞察是——伪数据即使没有真实尺度，也能有效训练泛化模型，因为模型学习的是几何对齐而非尺度先验。这使得无标签数据也能贡献有效训练信号

损失函数 / 训练策略¶

采用 SPNet 框架进行训练，使用标准的深度回归损失 \(\min_{\mathcal{F}} |\mathcal{F}(I, p) - d|\)。零样本阶段使用 AdamW 优化器，batch size 192，初始学习率 0.0002，cosine 衰减训练 100 个 epoch。少样本阶段在零样本预训练权重上微调，使用 1/10 的学习率。推理时不引入任何额外计算开销。

实验关键数据¶

主实验¶

零样本深度补全（均匀采样 10%/1%/0.1%，跨 6 个数据集平均）：

方法	平均 RMSE↓	平均 MAE↓	说明
NLSPN	9284	6701	全监督方法，泛化差
CFormer	6408	4503	全监督方法
G2MD	2387	923	泛化方法
SPNet	2271	791	泛化方法
OMNI-DC	2847	1310	泛化方法
PacGDC (本文)	1966	731	最优，比 SPNet 降 13.4%

少样本深度补全（KITTI 64 线 LiDAR）：

训练样本数	方法	RMSE↓	MAE↓
1	ImprovingDC	1358	337
1	PacGDC	1078	250
100	SparseDC	1203	325
100	PacGDC	911	229
1000	SparseDC	1049	263
1000	PacGDC	830	220

消融实验¶

基于 SPNet-Tiny 的合成策略消融（零样本，6 数据集均匀采样平均）：

配置	RMSE↓	MAE↓	说明
SPNet 原始	2484	990	基线
+DepthAnything (P=0)	2463	956	仅添加基础模型预测
+DepthAnything (P=0.5)	2344	889	加入 50% 概率插值
+DepthAnything (P=1.0)	2330	889	全插值
+Relocation	2277	857	加入重定位
+DepthPro	2241	854	多基础模型
+SA1B 无标签数据	2143	792	完整 pipeline

关键发现¶

每个合成策略组件都有贡献：从基线到完整 pipeline，RMSE 累计降低 13.7%
插值概率 P=1.0 最优：完全使用插值深度标签比混合使用效果更好，说明最大化数据多样性是关键
少样本 vs 全监督：仅用 1000 个标注样本就能超过部分用 86K 样本训练的全监督方法（如 S2D、TWISE）
用 1 个样本就能达到有意义的性能（RMSE 1078），展现了预训练权重的强大正则化力
方法在不同稀疏模式（均匀采样、VIO、LiDAR）和不同场景（室内/室外/合成）中均表现稳健

亮点与洞察¶

化弊为利的思路非常巧妙：深度基础模型的尺度不准确通常被视为缺陷，但本文将其作为生成多样化训练数据的核心工具。这种逆向思维值得学习
理论清晰，分解优雅：将投影歧义分解为形状+位置两个正交维度，并与深度补全的两种输入（图像+稀疏深度）建立自然对应，理论框架令人信服
完全无推理开销：所有创新都在数据合成阶段，推理时保持原始模型的效率（126.6 image/s），这在实际部署中非常有价值
可迁移思路：利用基础模型预测的不确定性/多样性来增强训练数据，可以推广到其他需要标签的感知任务

局限与展望¶

依赖 SPNet 作为底层框架，未验证在其他补全架构上的效果（虽然初步验证了 G2MD）
深度基础模型的形状一致性假设在极端场景下（如强反射、透明物体）可能不成立
仅使用了两个深度基础模型，更多模型可能带来更大提升
训练数据量较大（745K），训练成本不低
未探索与自监督深度估计方法的结合

评分¶

新颖性: ⭐⭐⭐⭐ 投影歧义的理论分析新颖且优雅，化基础模型缺陷为数据增强优势的思路很有启发性
实验充分度: ⭐⭐⭐⭐⭐ 零样本跨 7 个数据集 + 多种稀疏模式 + 少样本 + 详细消融，实验非常充分
写作质量: ⭐⭐⭐⭐ 理论阐述清晰，图示直观，但部分符号较多需要反复对照
价值: ⭐⭐⭐⭐⭐ 解决了实际部署中的标注成本问题，对机器人和自动驾驶的深度感知有直接应用价值