Any to Full: Prompting Depth Anything for Depth Completion in One Stage¶
日期: 2026-03-05
arXiv: 2603.05711
代码: 无(暂未公开)
领域: 3D视觉
关键词: depth completion, monocular depth estimation, prompt encoding, scale-aware, single-stage
一句话总结¶
Any2Full 通过尺度感知提示编码将任意稀疏/模式化深度输入注入 Depth Anything,在单个推理阶段实现深度补全,相比 OMNI-DC 提升 32.2% AbsREL 且速度提升 1.4×。
研究背景与动机¶
- 领域现状:深度补全是机器人感知的关键任务,但商用深度传感器产生的深度图往往稀疏或不完整(LiDAR 稀疏点、结构光孔洞等)。
- 现有痛点:(1) 传统深度补全方法针对特定传感器模式训练,泛化性差;(2) 单目深度估计(MDE)模型如 Depth Anything 提供密集但尺度不确定的估计;(3) 将 MDE 与稀疏深度结合通常需要两阶段流程(先估计再融合),效率低。
- 核心矛盾:如何在不生成中间密集深度图的情况下,直接利用 MDE 模型响应任意模式的稀疏输入?
- 切入角度:将稀疏深度视为"提示"注入 MDE 模型——通过 FiLM 调制进行局部富集 + MDE 几何引导进行全局传播。
方法详解¶
整体框架¶
Any2Full 单阶段流程:RGB 图像 + 任意模式稀疏深度 → 尺度感知提示编码器 → FiLM 调制注入 Depth Anything → 输出完整密集深度图。无需中间深度估计步骤。
关键设计¶
-
尺度感知提示编码:
- 将稀疏深度的有效像素位置和值编码为尺度提示
- 编码器输出 γ 和 β 参数,通过 FiLM 调制注入 MDE 特征:\(\text{FiLM}(h) = \gamma \odot h + \beta\)
- 不生成中间密集深度图,直接"提示"MDE 模型
-
局部富集 + 全局传播:
- 局部:FiLM 调制在稀疏深度有效区域富集精确信息
- 全局:MDE 模型(Depth Anything)的几何先验引导信息传播到无深度区域
- 设计动机:分工明确——稀疏点提供绝对尺度,MDE 提供相对几何
-
多模式兼容:
- 支持 LiDAR 稀疏点、结构光孔洞、随机稀疏等 6 种输入模式
- 单一模型处理所有模式,无需针对特定传感器训练
实验关键数据¶
主实验¶
| 方法 | NYU-Hole AbsREL↓ | KITTI Sparse AbsREL↓ | 速度 |
|---|---|---|---|
| CompletionFormer | 0.018 | 0.012 | 1.0× |
| DepthPrompt | 0.018 | 0.015 | 0.8× |
| OMNI-DC | 0.015 | 0.010 | 0.7× |
| Any2Full | 0.008 | 0.012 | 1.4× |
消融实验¶
| 配置 | NYU AbsREL | 说明 |
|---|---|---|
| MDE only(无稀疏输入) | 0.042 | 基线 |
| Two-stage(先估后融) | 0.012 | 两阶段 |
| Any2Full(单阶段) | 0.008 | 更好且更快 |
| w/o FiLM 调制 | 0.015 | FiLM 贡献显著 |
关键发现¶
- 单阶段 > 两阶段:绕过中间密集深度避免了累积误差
- FiLM 调制是关键——去掉后 AbsREL 从 0.008 升至 0.015
- 跨 6 种深度模式一致有效,泛化性好
- vs 传统方法速度提升 1.4×(省去中间步骤)
亮点与洞察¶
- 提示范式的创新应用:将稀疏深度视为"提示"而非"输入",利用了 MDE 模型的强几何先验
- 单阶段设计简洁高效:跳过中间步骤既减少误差累积又提升速度
- 多模式兼容:单一模型处理所有传感器类型,部署方便
局限性 / 可改进方向¶
- 对极端稀疏输入(<1% 密度)的性能下界需评估
- 仅验证了室内/驾驶场景,其他场景待验证
- Depth Anything 模型固定,联合微调可能进一步提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 提示范式应用于深度补全是新思路
- 实验充分度: ⭐⭐⭐⭐ 多数据集、多模式、消融完整
- 写作质量: ⭐⭐⭐⭐ 设计思路清晰
- 价值: ⭐⭐⭐⭐ 对机器人感知有直接实用价值