跳转至

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

日期: 2026-03-05
arXiv: 2603.05711
代码: 无(暂未公开)
领域: 3D视觉
关键词: depth completion, monocular depth estimation, prompt encoding, scale-aware, single-stage

一句话总结

Any2Full 通过尺度感知提示编码将任意稀疏/模式化深度输入注入 Depth Anything,在单个推理阶段实现深度补全,相比 OMNI-DC 提升 32.2% AbsREL 且速度提升 1.4×。

研究背景与动机

  1. 领域现状:深度补全是机器人感知的关键任务,但商用深度传感器产生的深度图往往稀疏或不完整(LiDAR 稀疏点、结构光孔洞等)。
  2. 现有痛点:(1) 传统深度补全方法针对特定传感器模式训练,泛化性差;(2) 单目深度估计(MDE)模型如 Depth Anything 提供密集但尺度不确定的估计;(3) 将 MDE 与稀疏深度结合通常需要两阶段流程(先估计再融合),效率低。
  3. 核心矛盾:如何在不生成中间密集深度图的情况下,直接利用 MDE 模型响应任意模式的稀疏输入?
  4. 切入角度:将稀疏深度视为"提示"注入 MDE 模型——通过 FiLM 调制进行局部富集 + MDE 几何引导进行全局传播。

方法详解

整体框架

Any2Full 单阶段流程:RGB 图像 + 任意模式稀疏深度 → 尺度感知提示编码器 → FiLM 调制注入 Depth Anything → 输出完整密集深度图。无需中间深度估计步骤。

关键设计

  1. 尺度感知提示编码

    • 将稀疏深度的有效像素位置和值编码为尺度提示
    • 编码器输出 γ 和 β 参数,通过 FiLM 调制注入 MDE 特征:\(\text{FiLM}(h) = \gamma \odot h + \beta\)
    • 不生成中间密集深度图,直接"提示"MDE 模型
  2. 局部富集 + 全局传播

    • 局部:FiLM 调制在稀疏深度有效区域富集精确信息
    • 全局:MDE 模型(Depth Anything)的几何先验引导信息传播到无深度区域
    • 设计动机:分工明确——稀疏点提供绝对尺度,MDE 提供相对几何
  3. 多模式兼容

    • 支持 LiDAR 稀疏点、结构光孔洞、随机稀疏等 6 种输入模式
    • 单一模型处理所有模式,无需针对特定传感器训练

实验关键数据

主实验

方法 NYU-Hole AbsREL↓ KITTI Sparse AbsREL↓ 速度
CompletionFormer 0.018 0.012 1.0×
DepthPrompt 0.018 0.015 0.8×
OMNI-DC 0.015 0.010 0.7×
Any2Full 0.008 0.012 1.4×

消融实验

配置 NYU AbsREL 说明
MDE only(无稀疏输入) 0.042 基线
Two-stage(先估后融) 0.012 两阶段
Any2Full(单阶段) 0.008 更好且更快
w/o FiLM 调制 0.015 FiLM 贡献显著

关键发现

  • 单阶段 > 两阶段:绕过中间密集深度避免了累积误差
  • FiLM 调制是关键——去掉后 AbsREL 从 0.008 升至 0.015
  • 跨 6 种深度模式一致有效,泛化性好
  • vs 传统方法速度提升 1.4×(省去中间步骤)

亮点与洞察

  • 提示范式的创新应用:将稀疏深度视为"提示"而非"输入",利用了 MDE 模型的强几何先验
  • 单阶段设计简洁高效:跳过中间步骤既减少误差累积又提升速度
  • 多模式兼容:单一模型处理所有传感器类型,部署方便

局限性 / 可改进方向

  • 对极端稀疏输入(<1% 密度)的性能下界需评估
  • 仅验证了室内/驾驶场景,其他场景待验证
  • Depth Anything 模型固定,联合微调可能进一步提升

评分

  • 新颖性: ⭐⭐⭐⭐ 提示范式应用于深度补全是新思路
  • 实验充分度: ⭐⭐⭐⭐ 多数据集、多模式、消融完整
  • 写作质量: ⭐⭐⭐⭐ 设计思路清晰
  • 价值: ⭐⭐⭐⭐ 对机器人感知有直接实用价值