Vision-Language Embodiment for Monocular Depth Estimation¶

会议: CVPR 2025
arXiv: 2503.16535
代码: 无
领域: 3D视觉
关键词: 单目深度估计, 相机模型具身化, 视觉语言融合, 场景深度先验, 变分自编码器

一句话总结¶

提出一种具身深度估计框架，将相机模型的物理特性具身化到深度学习系统中，计算Embodied Scene Depth作为几何先验，同时利用视觉-语言互补（深度文本描述 + 文本VAE + 条件采样器），融合RGB图像特征和物理深度先验进行单目深度估计。

研究背景与动机¶

单目深度估计是计算机视觉核心问题，但从3D到2D的映射本质上是不适定的
现有深度估计模型主要依赖图像间关系进行有监督训练，忽略了相机本身提供的固有信息
几何先验（法线约束、平面约束）虽能减少不确定性，但整体影响有限
现有的CLIP-based深度估计方法（DepthCLIP等）使用固定的离散深度描述，表达能力不足
图像和文本作为两种本质上模糊的模态，各有互补优势：图像提供直接3D观测，文本提供物体尺度先验
对于道路等平坦区域，相机模型参数可以直接计算绝对深度，精度极高（>99%像素误差<10%）
缺乏将相机物理模型、环境语义和语言先验统一整合的深度估计框架
稀疏LiDAR真值限制了可用的深度监督信号密度

方法详解¶

整体框架¶

系统包含三个具身化层次：相机具身化——利用相机内外参和道路分割计算Embodied Scene Depth；语言具身化——用ExpansionNet-v2生成图像描述，基于分割和Embodied Depth生成深度文本描述，合并为文本VAE的输入；视觉-语言融合——RGB编码器和深度编码器通过交叉注意力融合特征，条件采样器从文本VAE的潜在分布中采样，共享权重的深度解码器输出最终深度。训练采用交替优化策略。

关键设计¶

设计一：Embodied Scene Depth具身场景深度 - 功能：利用相机物理参数实时计算稠密的场景深度先验 - 核心思路：在平面假设下利用相机内外参矩阵 \(A = [K|0][R,T;0,1]\)，已知相机高度 \(h\) 求解每个像素的深度 \(z_c\)。先通过语义分割识别道路区域获得Embodied Road Depth（精度99%+），扩展到地面、垂直表面，最后用Telea Inpainting填补空白得到完整Embodied Scene Depth - 设计动机：道路满足平面条件，可直接用解析方法计算绝对深度，比如LiDAR般准确但更稠密；逐步扩展到全场景虽降低精度但提供有价值的几何约束

设计二：深度引导的文本变分自编码器 - 功能：利用语言描述建模可能3D场景布局的概率分布 - 核心思路：为每个物体 \(O_i\) 生成深度文本描述 \(T_i\)（含深度值 \(d_i\) 和排序 \(r_i\)），与图像caption合并后通过CLIP文本编码器+MLP估计潜在分布的均值 \(\hat{\mu}\) 和标准差 \(\hat{\sigma}\)，用重参数化技巧 \(\hat{z} = \hat{\mu} + \epsilon \cdot \hat{\sigma}\) 采样，经深度解码器生成深度图 - 设计动机：文本提供的物体尺度和空间布局先验可约束深度估计的解空间，变分框架自然建模了场景的多样可能性

设计三：具身驱动的条件采样器 - 功能：从文本VAE的潜在分布中按图像条件采样出与特定图像对应的深度 - 核心思路：Transformer blocks将RGB和Embodied Depth的融合特征（通过交叉注意力 \(F_f^d = \text{softmax}(\frac{Q_r K_d}{d_k})V_d\) 融合）编码为 \(h \times w\) 个局部样本 \(\tilde{\epsilon}\)，替代标准高斯噪声 \(\epsilon\)，生成 \(\tilde{z} = \hat{\mu} + \tilde{\epsilon} \cdot \hat{\sigma}\)，经共享权重的深度解码器输出深度 - 设计动机：文本语言图谱只能描述可能的3D布局分布，需要图像信息来确定与当前场景最匹配的潜在向量

损失函数¶

交替训练：(1) 冻结条件采样器，训练文本VAE和深度解码器，使用 \(\mathcal{L}_{KL}(\mu, \sigma) + \mathcal{L}_{SiLog}\)；(2) 冻结文本VAE，训练条件采样器和深度解码器，使用SiLog损失。KL散度将潜在分布正则化向标准高斯，SiLog损失增强尺度不变性。

实验关键数据¶

主实验：KITTI深度估计¶

方法	AbsRel↓	SqRel↓	RMSE↓	\(\delta<1.25\)↑
BTS	0.061	0.261	2.834	0.954
Adabins	0.058	0.190	2.360	0.964
iDisc	0.053	0.175	2.216	0.971
ECoDepth	0.054	0.171	2.173	0.970
Ours	0.050	0.159	2.054	0.974

消融实验：Embodied Depth精度（KITTI数据集）¶

深度类型	±5%误差范围	±10%误差范围
Embodied Road Depth	80.24%	99.33%
Embodied Ground Depth	60.30%	74.89%
Embodied Scene Depth	38.88%	52.45%

关键发现¶

Embodied Road Depth精度极高（99.33%像素误差<10%），可在道路区域替代LiDAR
不同语义分割模型对Embodied Depth影响极小（与GT分割差距<1%），鲁棒性强
完整框架在KITTI上AbsRel达0.050，超越ECoDepth和iDisc等SOTA
Embodied Scene Depth虽然在非平面区域精度下降，但提供了有价值的稠密几何先验
交替训练策略（文本VAE和条件采样器）对整体性能至关重要

亮点与洞察¶

相机物理模型的直接利用：不是学习深度先验而是解析计算，在平面区域精度接近传感器级别
三层次具身化整合：相机+环境+语言的统一框架，各层次互补
深度文本描述的创新：将物体深度值和排序转化为自然语言，利用CLIP文本编码器的语义能力
对分割模型低依赖：不同分割模型的精度差异对最终深度估计影响极小

局限与展望¶

主要在KITTI和DDAD等驾驶场景验证，对室内等无明显地面平面的场景适用性有限
Embodied Scene Depth依赖平面假设，对坡道、台阶等非平面地面精度下降
文本描述依赖自动caption生成工具的质量
需要已知相机内外参，限制了零样本通用性
未来可扩展到更多场景类型并结合更强的VLM

评分¶

⭐⭐⭐⭐ — 相机模型具身化的思路在驾驶场景下实用价值高，语言-视觉融合框架设计合理；但应用场景受限于有平面假设的环境。