跳转至

3D Visual Illusion Depth Estimation

会议: NeurIPS 2025
arXiv: 2505.13061
代码: GitHub
领域: 3D Vision / Depth Estimation
关键词: 3D视觉错觉, 深度估计, 单目-双目融合, 视觉语言模型, Flow Matching

一句话总结

揭示了3D视觉错觉(如墙面彩绘、屏幕重播、镜面反射等)会严重欺骗现有SOTA单目和双目深度估计方法,构建了包含约3k场景/200k图像的大规模数据集,并提出基于VLM常识推理的单目-双目自适应融合框架,在各类错觉场景下达到SOTA。

背景与动机

深度估计在AR/VR、机器人等下游任务中至关重要。当前单目方法(DepthAnything V2、Marigold等)和双目方法(RAFT-Stereo、IGEV等)在普通场景已接近人类水平,但面对3D视觉错觉场景时严重失效——平面上的绘画、打印图片、屏幕内容、全息投影、镜面/透明物体等会让模型产生错误的深度预测。这类错觉在真实世界广泛存在,对自动驾驶、机器人导航等安全关键应用构成威胁,但此前缺乏系统的研究和评估基准。

核心问题

  1. 定量揭示3D视觉错觉对深度估计的影响——不同类型的错觉如何分别欺骗单目和双目方法?
  2. 构建大规模基准用于系统评估;
  3. 设计一种融合框架利用单目和双目方法的互补性来抵抗错觉。

关键洞察:单目方法依赖纹理线索(形状、透视、阴影),易被在平面上模拟的3D纹理欺骗,但能通过学到的先验处理镜面;双目方法依赖像素匹配,不怕纹理错觉,但在镜面/透明表面因反射叠加导致匹配失败。二者互补性强

方法详解

整体框架

提出VLM-Driven Monocular-Stereo Fusion Model,由两个核心部分组成: 1. 双分支预测网络:同时输出双目视差图和单目深度图 2. VLM融合网络:利用视觉语言模型的常识推理能力,评估两种深度线索在不同区域的可靠性,生成置信度图指导融合

关键设计

  1. 双分支预测网络
  2. 双目分支:基于GRU迭代优化框架,提取校正图像对特征,构建代价体,从零初始视差迭代精化
  3. 单目分支:冻结的DepthAnything V2预测仿射不变的逆深度;同时提取单目特征作为左视图上下文,辅助双目分支视差精化
  4. 设计巧妙:单目特征不仅产生独立深度预测,还反哺双目分支

  5. VLM预测阶段

  6. 使用预训练的QwenVL2-7B,视觉prompt包含左图、双目视差图、单目视差图
  7. 语言prompt从"哪些材质会干扰双目匹配"的角度设计(如透明/反射物体),而非直接描述复杂的错觉纹理
  8. 用LoRA微调VLM最后层

  9. 置信度图生成(Flow Matching)

  10. 受FLUX启发,用flow matching从高斯噪声学习到置信度分布的引导路径流
  11. VLM的图像-文本embedding作为条件信息,通过Transformer+交叉注意力注入
  12. VAE解码器将最终状态转回图像空间,与代价体拼接后通过卷积预测置信度图

  13. 全局融合阶段

  14. 用仿射变换将单目视差对齐到绝对/度量空间:\(\tilde{D}_m = s_m \cdot D_m + t_m\)
  15. 仿射参数通过卷积在单目和双目视差拼接上学习
  16. 低置信区域的参数通过高置信邻域池化来精化
  17. 对齐后的单目视差、双目视差、置信度图拼接后通过卷积+上采样得到最终高分辨率视差图

损失函数 / 训练策略

  • 视差损失 \(\mathcal{L}_d\):L1损失,监督GRU每步迭代视差、对齐后的单目视差、最终预测视差
  • 置信度图损失 \(\mathcal{L}_c\):Focal Loss,GT来自最终双目预测与真值的差异
  • 训练策略:先在SceneFlow预训练,再在虚拟3D-Visual-Illusion数据上微调
  • 在4×H100上训练约20天,batch size 6/GPU

数据集构建(3D-Visual-Illusion Dataset)

覆盖5类错觉: - Inpainting illusion(墙面/地面绘画) - Picture illusion(纸上打印/绘制的图像) - Replay illusion(屏幕重播内容) - Holography illusion(全息投影) - Mirror illusion(镜面/透明表面)

虚拟数据:从网络爬取5226视频(52M帧),用Qwen2-VL-72B自动过滤+人工筛选至1384视频/236k帧;镜面类用Sora/Kling/HunyuanVideo生成234视频/2382帧。深度通过DepthAnything V2 + SAM2分割 + RANSAC平面拟合校正生成。

真实数据:ZED Mini立体相机 + RealSense L515激光雷达,72场景/617帧,通过标定、Z-buffering、反投影验证获取GT深度。

实验关键数据

真实数据错觉区域评估

方法 类型 EPE↓ bad2↓ AbsRel↓ δ1↑
DA V2 单目 5.81 61.45 0.14 92.86
DepthPro+align 单目 4.36 44.98 0.09 93.83
RAFT-Stereo 双目 1.62 24.32 0.04 99.18
Ours 融合 1.77 26.72 0.03 99.60

Booster数据集零样本泛化(镜面/透明区域)

方法 All EPE↓ All bad2↓ Trans EPE↓ Trans bad2↓
RAFT-Stereo 4.08 17.61 9.55 67.84
MochaStereo 3.79 16.77 9.18 66.64
Ours 2.43 13.84 7.32 56.77

Middlebury零样本泛化

指标 RAFT-Stereo Selective-IGEV MochaStereo Ours
EPE 2.34 2.66 2.89 1.50
Bad-2 12.04 10.18 11.93 11.79

消融实验要点

  • 纯双目基线在Booster上bad2=80.38%,加入VLM融合后降至56.77%(↓24pp)
  • 单目特征(MF)的引入改善了bad指标但轻微损害EPE——更好的整体几何但部分极端偏移
  • 自适应后融合(APF,双GRU)因两分支不一致更新引入噪声
  • VLM置信度估计在零样本场景的错误率约20%,泛化能力强

亮点

  • 问题定义新颖:首次系统性研究3D视觉错觉对深度估计的影响,定义了5类错觉类型
  • 互补性洞察深刻:清晰阐述单目(生成式/纹理→几何映射)vs 双目(判别式/像素匹配)在不同错觉下的失败模式和互补关系
  • VLM常识推理驱动融合:用LLM的常识知识(如"镜面/玻璃会导致匹配失败")指导置信度估计,比纯数据驱动更具泛化性
  • 数据集构建完整:虚拟+真实数据,结合网络数据/生成模型/激光雷达GT,pipeline系统完善
  • 普通场景不退化:在Middlebury上反而提升EPE,证明融合框架的通用性

局限性 / 可改进方向

  • 计算成本高:VLM部分推理需约54GB显存、4.77s/样本(H100),远超纯双目方法(5.6GB、0.87s)
  • 手工标注依赖:虚拟数据生成依赖SAM2手动标注错觉区域和支撑区域
  • 真实数据有限:仅覆盖inpainting/picture/replay三类,缺全息和镜面
  • 单错觉假设:未研究多类错觉叠加的复杂场景
  • 平面假设:视差校正假设错觉区域与支撑区域共面,非平面情况可能失效

与相关工作的对比

  • 与DepthAnything V2/Marigold等单目方法:本文揭示它们作为"生成式模型",将纹理线索映射到几何,本质上会被模拟纹理欺骗;微调也无法根本解决(错觉区域好转but普通区域退化)
  • 与RAFT-Stereo/IGEV等双目方法:在镜面/透明表面因反射导致匹配失败;微调同样效果有限,因为不同错觉类型的学习信号相互冲突
  • 与DUSt3R/VGGT多视角方法:在错觉场景表现出强烈的单目偏见
  • 与Booster数据集:Booster关注透明/反射表面,本文覆盖范围更广(5类错觉)

启发与关联

  • ideas/3d_vision/20260317_vary_3d_scene_encoder.md(3D-Aware Vary编码器)关联:本文证明了VLM在理解3D场景中材质属性(镜面/透明)方面有独特优势,可作为Vary-3D编码器的重要训练信号来源
  • ideas/3d_vision/20260316_open_vocab_3d_occupancy.md(开放词汇3D占据)关联:3D视觉错觉在自动驾驶占据预测中同样是关键挑战(论文展示了YOLO3D在错觉场景中的严重退化)
  • 核心启发:单目和双目的互补融合思路+VLM常识推理驱动,可推广到其他需要处理"违反直觉"场景的3D任务

评分

  • 新颖性: ⭐⭐⭐⭐ 问题定义非常新颖(首次系统研究3D视觉错觉),但融合方法本身(双分支+置信度融合)的技术路线相对标准
  • 实验充分度: ⭐⭐⭐⭐⭐ 数据集构建完整、对比方法全面、消融实验详尽、还做了微调分析和下游任务(3D检测)可视化
  • 写作质量: ⭐⭐⭐⭐ 写作清晰,问题动机和互补性分析深入,但部分数据集构建细节(如平面拟合数学推导)占篇幅较多
  • 价值: ⭐⭐⭐⭐ 揭示了一个被忽视但重要的问题,数据集和benchmark对社区有长期价值;但VLM融合的高计算成本限制了实用性