Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation¶
会议: NEURIPS2025
arXiv: 2503.15905
代码: 待确认
领域: 3d_vision / depth_estimation
关键词: 自监督深度估计, Stable Diffusion, 扩散先验, 混合批次重建, Scale-Shift GRU
一句话总结¶
首次将Stable Diffusion视觉先验引入自监督单目深度估计:提出Mix-Batch Image Reconstruction避免自监督噪声损坏SD先验,设计Scale-Shift GRU桥接SD的尺度偏移不变性(SSI)与自监督的尺度不变性(SI)深度,在KITTI上AbsRel达0.102且泛化性强。
背景与动机¶
- 领域现状:自监督深度估计避免昂贵GT标注但在遮挡/无纹理/光照变化区域退化严重。SD等基础模型有丰富视觉先验,但此前仅用于有监督深度估计。
- 核心挑战:自监督的重投影损失含噪且不精确,直接用其微调SD会损坏预训练先验(梯度扰动导致VAE潜空间退化)。
- 另一挑战:SD产出SSI深度(scale-shift不变),而自监督需要SI深度(尺度不变)——两者分布不匹配导致训练不稳定。
方法详解¶
整体框架¶
SD微调框架,通过代理任务保护先验 + GRU模块对齐SSI/SI深度。
关键设计1: Mix-Batch Image Reconstruction (MIR)¶
- 训练批次交替包含深度预测任务(KITTI真实图像)和图像重建任务(Hypersim合成图像)
- 图像重建用photometric loss而非latent loss——避免VAE的1/8分辨率导致块状伪影
- 合成数据上的重建任务保持SD先验不被自监督噪声损坏
关键设计2: Scale-Shift GRU (SSG)¶
- GRU迭代模块,用可学习的scale/shift查询与SD隐层状态做交叉注意力
- 输出scale因子 \(s_c\) 和shift因子 \(s_h\),将SSI深度转换为SI深度
- 迭代精炼对齐,而非一次性线性变换
关键设计3: Steady SD Finetuning¶
- 用预训练自监督教师(MonoViT)生成伪标签
- 伪标签损失权重逐渐衰减——初期稳定训练,后期让模型超越教师
实验关键数据¶
KITTI(自监督方法对比)¶
| 方法 | AbsRel↓ | SqRel↓ | RMSE↓ | δ₁↑ |
|---|---|---|---|---|
| Monodepth2 | 0.115 | 0.903 | 4.863 | 0.877 |
| HR-Depth | 0.106 | 0.755 | 4.472 | 0.890 |
| MonoViT | 0.096 | - | - | - |
| JASMINE* | 0.102 | 0.540 | 3.728 | 0.907 |
- SqRel和RMSE显著领先
- 与零样本方法对比:优于Marigold(0.120)、E2E FT(0.112)、Lotus(0.110)
泛化性¶
- DrivingStereo和CityScapes零样本迁移优于监督方法
消融¶
- Photometric loss >> Latent loss(解决VAE块状伪影问题)
- 混合真实+合成图像关键——仅用一种类型失败
亮点¶
- 首个SD自监督深度:证明扩散先验可在无GT条件下有效利用
- MIR代理任务:巧妙保护SD先验不被噪声自监督信号损坏
- SSG桥接模块:优雅解决SSI/SI分布不匹配
- 强泛化性:跨数据集零样本迁移优于监督方法
局限性 / 可改进方向¶
- 依赖预训练教师模型(MonoViT)生成伪标签——教师质量影响上限
- AbsRel 0.102仍不如MonoViT(0.096)——但泛化性更好
- SD微调的计算成本高于传统自监督方法
与相关工作的对比¶
- vs Marigold/Lotus:这些是零样本方法需要GT微调SD;JASMINE纯自监督
- vs MonoViT:强自监督基线,JASMINE在SqRel/RMSE/泛化性上更优
- vs E2E FT:端到端微调但需GT;JASMINE无需标注
启发与关联¶
- 代理任务保护预训练先验的思路可推广到其他SD微调场景
- SSI→SI的分布对齐问题在其他相对预测任务中也普遍存在
- 合成数据混合训练思路对自监督方法有普适参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个SD自监督深度+MIR+SSG创新组合
- 实验充分度: ⭐⭐⭐⭐ KITTI+跨域零样本+消融
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,设计动机清晰
- 价值: ⭐⭐⭐⭐ 开启SD自监督深度的新方向