3D Visual Illusion Depth Estimation¶

会议: NeurIPS 2025
arXiv: 2505.13061
代码: GitHub
领域: 3D Vision / Depth Estimation
关键词: 3D视觉错觉, 深度估计, 单目-双目融合, 视觉语言模型, Flow Matching

一句话总结¶

揭示了3D视觉错觉（如墙面彩绘、屏幕重播、镜面反射等）会严重欺骗现有SOTA单目和双目深度估计方法，构建了包含约3k场景/200k图像的大规模数据集，并提出基于VLM常识推理的单目-双目自适应融合框架，在各类错觉场景下达到SOTA。

背景与动机¶

深度估计在AR/VR、机器人等下游任务中至关重要。当前单目方法（DepthAnything V2、Marigold等）和双目方法（RAFT-Stereo、IGEV等）在普通场景已接近人类水平，但面对3D视觉错觉场景时严重失效——平面上的绘画、打印图片、屏幕内容、全息投影、镜面/透明物体等会让模型产生错误的深度预测。这类错觉在真实世界广泛存在，对自动驾驶、机器人导航等安全关键应用构成威胁，但此前缺乏系统的研究和评估基准。

核心问题¶

定量揭示3D视觉错觉对深度估计的影响——不同类型的错觉如何分别欺骗单目和双目方法？
构建大规模基准用于系统评估；
设计一种融合框架利用单目和双目方法的互补性来抵抗错觉。

关键洞察：单目方法依赖纹理线索（形状、透视、阴影），易被在平面上模拟的3D纹理欺骗，但能通过学到的先验处理镜面；双目方法依赖像素匹配，不怕纹理错觉，但在镜面/透明表面因反射叠加导致匹配失败。二者互补性强。

方法详解¶

整体框架¶

提出VLM-Driven Monocular-Stereo Fusion Model，由两个核心部分组成： 1. 双分支预测网络：同时输出双目视差图和单目深度图 2. VLM融合网络：利用视觉语言模型的常识推理能力，评估两种深度线索在不同区域的可靠性，生成置信度图指导融合

关键设计¶

双分支预测网络：
双目分支：基于GRU迭代优化框架，提取校正图像对特征，构建代价体，从零初始视差迭代精化
单目分支：冻结的DepthAnything V2预测仿射不变的逆深度；同时提取单目特征作为左视图上下文，辅助双目分支视差精化
设计巧妙：单目特征不仅产生独立深度预测，还反哺双目分支
VLM预测阶段：
使用预训练的QwenVL2-7B，视觉prompt包含左图、双目视差图、单目视差图
语言prompt从"哪些材质会干扰双目匹配"的角度设计（如透明/反射物体），而非直接描述复杂的错觉纹理
用LoRA微调VLM最后层
置信度图生成（Flow Matching）：
受FLUX启发，用flow matching从高斯噪声学习到置信度分布的引导路径流
VLM的图像-文本embedding作为条件信息，通过Transformer+交叉注意力注入
VAE解码器将最终状态转回图像空间，与代价体拼接后通过卷积预测置信度图
全局融合阶段：
用仿射变换将单目视差对齐到绝对/度量空间：\(\tilde{D}_m = s_m \cdot D_m + t_m\)
仿射参数通过卷积在单目和双目视差拼接上学习
低置信区域的参数通过高置信邻域池化来精化
对齐后的单目视差、双目视差、置信度图拼接后通过卷积+上采样得到最终高分辨率视差图

损失函数 / 训练策略¶

视差损失 \(\mathcal{L}_d\)：L1损失，监督GRU每步迭代视差、对齐后的单目视差、最终预测视差
置信度图损失 \(\mathcal{L}_c\)：Focal Loss，GT来自最终双目预测与真值的差异
训练策略：先在SceneFlow预训练，再在虚拟3D-Visual-Illusion数据上微调
在4×H100上训练约20天，batch size 6/GPU

数据集构建（3D-Visual-Illusion Dataset）¶

覆盖5类错觉： - Inpainting illusion（墙面/地面绘画） - Picture illusion（纸上打印/绘制的图像） - Replay illusion（屏幕重播内容） - Holography illusion（全息投影） - Mirror illusion（镜面/透明表面）

虚拟数据：从网络爬取5226视频（52M帧），用Qwen2-VL-72B自动过滤+人工筛选至1384视频/236k帧；镜面类用Sora/Kling/HunyuanVideo生成234视频/2382帧。深度通过DepthAnything V2 + SAM2分割 + RANSAC平面拟合校正生成。

真实数据：ZED Mini立体相机 + RealSense L515激光雷达，72场景/617帧，通过标定、Z-buffering、反投影验证获取GT深度。

实验关键数据¶

真实数据错觉区域评估¶

方法	类型	EPE↓	bad2↓	AbsRel↓	δ1↑
DA V2	单目	5.81	61.45	0.14	92.86
DepthPro+align	单目	4.36	44.98	0.09	93.83
RAFT-Stereo	双目	1.62	24.32	0.04	99.18
Ours	融合	1.77	26.72	0.03	99.60

Booster数据集零样本泛化（镜面/透明区域）¶

方法	All EPE↓	All bad2↓	Trans EPE↓	Trans bad2↓
RAFT-Stereo	4.08	17.61	9.55	67.84
MochaStereo	3.79	16.77	9.18	66.64
Ours	2.43	13.84	7.32	56.77

Middlebury零样本泛化¶

指标	RAFT-Stereo	Selective-IGEV	MochaStereo	Ours
EPE	2.34	2.66	2.89	1.50
Bad-2	12.04	10.18	11.93	11.79

消融实验要点¶

纯双目基线在Booster上bad2=80.38%，加入VLM融合后降至56.77%（↓24pp）
单目特征(MF)的引入改善了bad指标但轻微损害EPE——更好的整体几何但部分极端偏移
自适应后融合(APF，双GRU)因两分支不一致更新引入噪声
VLM置信度估计在零样本场景的错误率约20%，泛化能力强

亮点¶

问题定义新颖：首次系统性研究3D视觉错觉对深度估计的影响，定义了5类错觉类型
互补性洞察深刻：清晰阐述单目（生成式/纹理→几何映射）vs 双目（判别式/像素匹配）在不同错觉下的失败模式和互补关系
VLM常识推理驱动融合：用LLM的常识知识（如"镜面/玻璃会导致匹配失败"）指导置信度估计，比纯数据驱动更具泛化性
数据集构建完整：虚拟+真实数据，结合网络数据/生成模型/激光雷达GT，pipeline系统完善
普通场景不退化：在Middlebury上反而提升EPE，证明融合框架的通用性

局限性 / 可改进方向¶

计算成本高：VLM部分推理需约54GB显存、4.77s/样本（H100），远超纯双目方法（5.6GB、0.87s）
手工标注依赖：虚拟数据生成依赖SAM2手动标注错觉区域和支撑区域
真实数据有限：仅覆盖inpainting/picture/replay三类，缺全息和镜面
单错觉假设：未研究多类错觉叠加的复杂场景
平面假设：视差校正假设错觉区域与支撑区域共面，非平面情况可能失效

与相关工作的对比¶

与DepthAnything V2/Marigold等单目方法：本文揭示它们作为"生成式模型"，将纹理线索映射到几何，本质上会被模拟纹理欺骗；微调也无法根本解决（错觉区域好转but普通区域退化）
与RAFT-Stereo/IGEV等双目方法：在镜面/透明表面因反射导致匹配失败；微调同样效果有限，因为不同错觉类型的学习信号相互冲突
与DUSt3R/VGGT多视角方法：在错觉场景表现出强烈的单目偏见
与Booster数据集：Booster关注透明/反射表面，本文覆盖范围更广（5类错觉）

启发与关联¶

与 ideas/3d_vision/20260317_vary_3d_scene_encoder.md（3D-Aware Vary编码器）关联：本文证明了VLM在理解3D场景中材质属性（镜面/透明）方面有独特优势，可作为Vary-3D编码器的重要训练信号来源
与 ideas/3d_vision/20260316_open_vocab_3d_occupancy.md（开放词汇3D占据）关联：3D视觉错觉在自动驾驶占据预测中同样是关键挑战（论文展示了YOLO3D在错觉场景中的严重退化）
核心启发：单目和双目的互补融合思路+VLM常识推理驱动，可推广到其他需要处理"违反直觉"场景的3D任务

评分¶

新颖性: ⭐⭐⭐⭐ 问题定义非常新颖（首次系统研究3D视觉错觉），但融合方法本身（双分支+置信度融合）的技术路线相对标准
实验充分度: ⭐⭐⭐⭐⭐ 数据集构建完整、对比方法全面、消融实验详尽、还做了微调分析和下游任务（3D检测）可视化
写作质量: ⭐⭐⭐⭐ 写作清晰，问题动机和互补性分析深入，但部分数据集构建细节（如平面拟合数学推导）占篇幅较多
价值: ⭐⭐⭐⭐ 揭示了一个被忽视但重要的问题，数据集和benchmark对社区有长期价值；但VLM融合的高计算成本限制了实用性