Any to Full: Prompting Depth Anything for Depth Completion in One Stage¶

日期: 2026-03-05
arXiv: 2603.05711
代码: 无（暂未公开）
领域: 3D视觉
关键词: depth completion, monocular depth estimation, prompt encoding, scale-aware, single-stage

一句话总结¶

Any2Full 通过尺度感知提示编码将任意稀疏/模式化深度输入注入 Depth Anything，在单个推理阶段实现深度补全，相比 OMNI-DC 提升 32.2% AbsREL 且速度提升 1.4×。

研究背景与动机¶

领域现状：深度补全是机器人感知的关键任务，但商用深度传感器产生的深度图往往稀疏或不完整（LiDAR 稀疏点、结构光孔洞等）。
现有痛点：(1) 传统深度补全方法针对特定传感器模式训练，泛化性差；(2) 单目深度估计（MDE）模型如 Depth Anything 提供密集但尺度不确定的估计；(3) 将 MDE 与稀疏深度结合通常需要两阶段流程（先估计再融合），效率低。
核心矛盾：如何在不生成中间密集深度图的情况下，直接利用 MDE 模型响应任意模式的稀疏输入？
切入角度：将稀疏深度视为"提示"注入 MDE 模型——通过 FiLM 调制进行局部富集 + MDE 几何引导进行全局传播。

方法详解¶

整体框架¶

Any2Full 单阶段流程：RGB 图像 + 任意模式稀疏深度 → 尺度感知提示编码器 → FiLM 调制注入 Depth Anything → 输出完整密集深度图。无需中间深度估计步骤。

关键设计¶

尺度感知提示编码：
- 将稀疏深度的有效像素位置和值编码为尺度提示
- 编码器输出 γ 和 β 参数，通过 FiLM 调制注入 MDE 特征：\(\text{FiLM}(h) = \gamma \odot h + \beta\)
- 不生成中间密集深度图，直接"提示"MDE 模型
局部富集 + 全局传播：
- 局部：FiLM 调制在稀疏深度有效区域富集精确信息
- 全局：MDE 模型（Depth Anything）的几何先验引导信息传播到无深度区域
- 设计动机：分工明确——稀疏点提供绝对尺度，MDE 提供相对几何
多模式兼容：
- 支持 LiDAR 稀疏点、结构光孔洞、随机稀疏等 6 种输入模式
- 单一模型处理所有模式，无需针对特定传感器训练

实验关键数据¶

主实验¶

方法	NYU-Hole AbsREL↓	KITTI Sparse AbsREL↓	速度
CompletionFormer	0.018	0.012	1.0×
DepthPrompt	0.018	0.015	0.8×
OMNI-DC	0.015	0.010	0.7×
Any2Full	0.008	0.012	1.4×

消融实验¶

配置	NYU AbsREL	说明
MDE only（无稀疏输入）	0.042	基线
Two-stage（先估后融）	0.012	两阶段
Any2Full（单阶段）	0.008	更好且更快
w/o FiLM 调制	0.015	FiLM 贡献显著

关键发现¶

单阶段 > 两阶段：绕过中间密集深度避免了累积误差
FiLM 调制是关键——去掉后 AbsREL 从 0.008 升至 0.015
跨 6 种深度模式一致有效，泛化性好
vs 传统方法速度提升 1.4×（省去中间步骤）

亮点与洞察¶

提示范式的创新应用：将稀疏深度视为"提示"而非"输入"，利用了 MDE 模型的强几何先验
单阶段设计简洁高效：跳过中间步骤既减少误差累积又提升速度
多模式兼容：单一模型处理所有传感器类型，部署方便

局限性 / 可改进方向¶

对极端稀疏输入（<1% 密度）的性能下界需评估
仅验证了室内/驾驶场景，其他场景待验证
Depth Anything 模型固定，联合微调可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 提示范式应用于深度补全是新思路
实验充分度: ⭐⭐⭐⭐ 多数据集、多模式、消融完整
写作质量: ⭐⭐⭐⭐ 设计思路清晰
价值: ⭐⭐⭐⭐ 对机器人感知有直接实用价值