3D Visual Illusion Depth Estimation¶
会议: NeurIPS 2025
arXiv: 2505.13061
代码: GitHub
领域: 3D Vision / Depth Estimation
关键词: 3D视觉错觉, 深度估计, 单目-双目融合, 视觉语言模型, Flow Matching
一句话总结¶
揭示了3D视觉错觉(如墙面彩绘、屏幕重播、镜面反射等)会严重欺骗现有SOTA单目和双目深度估计方法,构建了包含约3k场景/200k图像的大规模数据集,并提出基于VLM常识推理的单目-双目自适应融合框架,在各类错觉场景下达到SOTA。
背景与动机¶
深度估计在AR/VR、机器人等下游任务中至关重要。当前单目方法(DepthAnything V2、Marigold等)和双目方法(RAFT-Stereo、IGEV等)在普通场景已接近人类水平,但面对3D视觉错觉场景时严重失效——平面上的绘画、打印图片、屏幕内容、全息投影、镜面/透明物体等会让模型产生错误的深度预测。这类错觉在真实世界广泛存在,对自动驾驶、机器人导航等安全关键应用构成威胁,但此前缺乏系统的研究和评估基准。
核心问题¶
- 定量揭示3D视觉错觉对深度估计的影响——不同类型的错觉如何分别欺骗单目和双目方法?
- 构建大规模基准用于系统评估;
- 设计一种融合框架利用单目和双目方法的互补性来抵抗错觉。
关键洞察:单目方法依赖纹理线索(形状、透视、阴影),易被在平面上模拟的3D纹理欺骗,但能通过学到的先验处理镜面;双目方法依赖像素匹配,不怕纹理错觉,但在镜面/透明表面因反射叠加导致匹配失败。二者互补性强。
方法详解¶
整体框架¶
提出VLM-Driven Monocular-Stereo Fusion Model,由两个核心部分组成: 1. 双分支预测网络:同时输出双目视差图和单目深度图 2. VLM融合网络:利用视觉语言模型的常识推理能力,评估两种深度线索在不同区域的可靠性,生成置信度图指导融合
关键设计¶
- 双分支预测网络:
- 双目分支:基于GRU迭代优化框架,提取校正图像对特征,构建代价体,从零初始视差迭代精化
- 单目分支:冻结的DepthAnything V2预测仿射不变的逆深度;同时提取单目特征作为左视图上下文,辅助双目分支视差精化
-
设计巧妙:单目特征不仅产生独立深度预测,还反哺双目分支
-
VLM预测阶段:
- 使用预训练的QwenVL2-7B,视觉prompt包含左图、双目视差图、单目视差图
- 语言prompt从"哪些材质会干扰双目匹配"的角度设计(如透明/反射物体),而非直接描述复杂的错觉纹理
-
用LoRA微调VLM最后层
-
置信度图生成(Flow Matching):
- 受FLUX启发,用flow matching从高斯噪声学习到置信度分布的引导路径流
- VLM的图像-文本embedding作为条件信息,通过Transformer+交叉注意力注入
-
VAE解码器将最终状态转回图像空间,与代价体拼接后通过卷积预测置信度图
-
全局融合阶段:
- 用仿射变换将单目视差对齐到绝对/度量空间:\(\tilde{D}_m = s_m \cdot D_m + t_m\)
- 仿射参数通过卷积在单目和双目视差拼接上学习
- 低置信区域的参数通过高置信邻域池化来精化
- 对齐后的单目视差、双目视差、置信度图拼接后通过卷积+上采样得到最终高分辨率视差图
损失函数 / 训练策略¶
- 视差损失 \(\mathcal{L}_d\):L1损失,监督GRU每步迭代视差、对齐后的单目视差、最终预测视差
- 置信度图损失 \(\mathcal{L}_c\):Focal Loss,GT来自最终双目预测与真值的差异
- 训练策略:先在SceneFlow预训练,再在虚拟3D-Visual-Illusion数据上微调
- 在4×H100上训练约20天,batch size 6/GPU
数据集构建(3D-Visual-Illusion Dataset)¶
覆盖5类错觉: - Inpainting illusion(墙面/地面绘画) - Picture illusion(纸上打印/绘制的图像) - Replay illusion(屏幕重播内容) - Holography illusion(全息投影) - Mirror illusion(镜面/透明表面)
虚拟数据:从网络爬取5226视频(52M帧),用Qwen2-VL-72B自动过滤+人工筛选至1384视频/236k帧;镜面类用Sora/Kling/HunyuanVideo生成234视频/2382帧。深度通过DepthAnything V2 + SAM2分割 + RANSAC平面拟合校正生成。
真实数据:ZED Mini立体相机 + RealSense L515激光雷达,72场景/617帧,通过标定、Z-buffering、反投影验证获取GT深度。
实验关键数据¶
真实数据错觉区域评估¶
| 方法 | 类型 | EPE↓ | bad2↓ | AbsRel↓ | δ1↑ |
|---|---|---|---|---|---|
| DA V2 | 单目 | 5.81 | 61.45 | 0.14 | 92.86 |
| DepthPro+align | 单目 | 4.36 | 44.98 | 0.09 | 93.83 |
| RAFT-Stereo | 双目 | 1.62 | 24.32 | 0.04 | 99.18 |
| Ours | 融合 | 1.77 | 26.72 | 0.03 | 99.60 |
Booster数据集零样本泛化(镜面/透明区域)¶
| 方法 | All EPE↓ | All bad2↓ | Trans EPE↓ | Trans bad2↓ |
|---|---|---|---|---|
| RAFT-Stereo | 4.08 | 17.61 | 9.55 | 67.84 |
| MochaStereo | 3.79 | 16.77 | 9.18 | 66.64 |
| Ours | 2.43 | 13.84 | 7.32 | 56.77 |
Middlebury零样本泛化¶
| 指标 | RAFT-Stereo | Selective-IGEV | MochaStereo | Ours |
|---|---|---|---|---|
| EPE | 2.34 | 2.66 | 2.89 | 1.50 |
| Bad-2 | 12.04 | 10.18 | 11.93 | 11.79 |
消融实验要点¶
- 纯双目基线在Booster上bad2=80.38%,加入VLM融合后降至56.77%(↓24pp)
- 单目特征(MF)的引入改善了bad指标但轻微损害EPE——更好的整体几何但部分极端偏移
- 自适应后融合(APF,双GRU)因两分支不一致更新引入噪声
- VLM置信度估计在零样本场景的错误率约20%,泛化能力强
亮点¶
- 问题定义新颖:首次系统性研究3D视觉错觉对深度估计的影响,定义了5类错觉类型
- 互补性洞察深刻:清晰阐述单目(生成式/纹理→几何映射)vs 双目(判别式/像素匹配)在不同错觉下的失败模式和互补关系
- VLM常识推理驱动融合:用LLM的常识知识(如"镜面/玻璃会导致匹配失败")指导置信度估计,比纯数据驱动更具泛化性
- 数据集构建完整:虚拟+真实数据,结合网络数据/生成模型/激光雷达GT,pipeline系统完善
- 普通场景不退化:在Middlebury上反而提升EPE,证明融合框架的通用性
局限性 / 可改进方向¶
- 计算成本高:VLM部分推理需约54GB显存、4.77s/样本(H100),远超纯双目方法(5.6GB、0.87s)
- 手工标注依赖:虚拟数据生成依赖SAM2手动标注错觉区域和支撑区域
- 真实数据有限:仅覆盖inpainting/picture/replay三类,缺全息和镜面
- 单错觉假设:未研究多类错觉叠加的复杂场景
- 平面假设:视差校正假设错觉区域与支撑区域共面,非平面情况可能失效
与相关工作的对比¶
- 与DepthAnything V2/Marigold等单目方法:本文揭示它们作为"生成式模型",将纹理线索映射到几何,本质上会被模拟纹理欺骗;微调也无法根本解决(错觉区域好转but普通区域退化)
- 与RAFT-Stereo/IGEV等双目方法:在镜面/透明表面因反射导致匹配失败;微调同样效果有限,因为不同错觉类型的学习信号相互冲突
- 与DUSt3R/VGGT多视角方法:在错觉场景表现出强烈的单目偏见
- 与Booster数据集:Booster关注透明/反射表面,本文覆盖范围更广(5类错觉)
启发与关联¶
- 与
ideas/3d_vision/20260317_vary_3d_scene_encoder.md(3D-Aware Vary编码器)关联:本文证明了VLM在理解3D场景中材质属性(镜面/透明)方面有独特优势,可作为Vary-3D编码器的重要训练信号来源 - 与
ideas/3d_vision/20260316_open_vocab_3d_occupancy.md(开放词汇3D占据)关联:3D视觉错觉在自动驾驶占据预测中同样是关键挑战(论文展示了YOLO3D在错觉场景中的严重退化) - 核心启发:单目和双目的互补融合思路+VLM常识推理驱动,可推广到其他需要处理"违反直觉"场景的3D任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义非常新颖(首次系统研究3D视觉错觉),但融合方法本身(双分支+置信度融合)的技术路线相对标准
- 实验充分度: ⭐⭐⭐⭐⭐ 数据集构建完整、对比方法全面、消融实验详尽、还做了微调分析和下游任务(3D检测)可视化
- 写作质量: ⭐⭐⭐⭐ 写作清晰,问题动机和互补性分析深入,但部分数据集构建细节(如平面拟合数学推导)占篇幅较多
- 价值: ⭐⭐⭐⭐ 揭示了一个被忽视但重要的问题,数据集和benchmark对社区有长期价值;但VLM融合的高计算成本限制了实用性