跳转至

Generalized Geometry Encoding Volume for Real-time Stereo Matching

会议: AAAI 2026
arXiv: 2512.06793
代码: https://github.com/JiaxinLiu-A/GGEV
领域: 3D视觉 / 立体匹配
关键词: 立体匹配, 实时推理, 零样本泛化, 单目深度基础模型, 动态代价聚合

一句话总结

提出 GGEV,将单目深度基础模型(Depth Anything V2)的深度先验以轻量方式融入代价聚合过程,通过深度感知动态代价聚合(DDCA)自适应增强不同视差假设的匹配关系,在实时速度下实现强泛化能力。

研究背景与动机

领域现状

立体匹配是计算机视觉的经典任务,需从校正后的左右图像估计稠密视差图。实际应用(自动驾驶、3D重建)对泛化能力和推理延迟都有严格要求。当前方法分两大阵营:

  • 实时方法(RT-IGEV, Fast-ACVNet等):通过下采样代价体、轻量聚合、2D卷积替代3D卷积等策略实现快速推理,但在未见场景(遮挡、无纹理区域、重复纹理、薄结构)的匹配关系脆弱
  • 泛化方法(FoundationStereo, MonSter等):利用单目基础模型(MFM)提升泛化,但依赖大backbone(ViT-L)和复杂迭代机制处理scale-shift问题,推理延迟高

核心矛盾

如何设计一个既实时又有强泛化能力的立体匹配网络?

现有痛点分析

作者分析了当前几何编码体(GEV)的两个关键局限:

不同视差假设对应的关键区域差异巨大:统一处理所有视差假设会导致错误匹配

这些区域的匹配关系在未见场景中极为脆弱:无纹理、遮挡、重复纹理导致匹配失效

本文切入角度

不像FoundationStereo用MFM构建代价体(引入scale-shift问题),而是将深度特征用于引导代价聚合——避免了scale-shift问题,同时保持轻量级。

方法详解

整体框架

GGEV包含四个阶段: 1. 多线索特征提取:纹理特征(MobileNetV2)+ 深度特征(冻结的Depth Anything V2 Small) 2. 代价体构建:基于纹理特征的分组相关代价体 3. 深度感知动态代价聚合(DDCA):用深度先验自适应增强代价体 4. 深度感知迭代优化:GRU迭代细化视差图

关键设计

1. 多线索特征提取与选择性通道融合(SCF)

功能:提取纹理特征和深度特征,并轻量融合为深度感知先验特征。

核心思路: - 纹理分支:用ImageNet预训练的MobileNetV2提取左右图像的多尺度纹理特征 \(\mathbf{f}_{l,i}, \mathbf{f}_{r,i}\)\(i \in \{4,8,16\}\)) - 深度分支:用冻结的Depth Anything V2 Small仅从左图提取多尺度深度特征 \(\mathbf{f}_{d,i}\) - SCF模块:用1×1卷积融合拼接的纹理和深度特征,生成深度感知先验特征 \(\mathbf{f}_{da,i}\)

设计动机: - 使用冻结的MFM避免训练开销,利用其在大规模真实数据上学到的域不变结构先验 - 用MobileNetV2而非ViT作为纹理backbone保持实时性 - 1×1卷积融合避免空间模糊,保留结构细节

2. 深度感知动态代价聚合(DDCA)

功能:对代价体中的每个视差假设自适应地注入深度结构先验,增强脆弱的匹配关系。

核心思路

Step 1 - 视差级深度结构表示:计算每个视差假设与深度特征之间的亲和矩阵

\[\mathbf{Q} = \text{Re}(W_q \mathbf{C}_d), \quad \mathbf{K} = \text{Re}(W_k \text{Pool}(\mathbf{f}_{da}))$$ $$\mathbf{A} = \mathbf{Q}^T \mathbf{K}\]

类似多头注意力,沿通道维度分为G组计算 \(\mathbf{A}^g\)

Step 2 - 视差级自适应代价聚合:用亲和矩阵生成动态卷积核

\[\mathbf{M}^g = \text{softmax}(\mathbf{A}^g W_m)$$ $$\mathbf{C}_d' = \mathbf{C}_d * \mathbf{M}^g_{\text{dynamic}}(\mathbf{C}_d, \mathbf{f}_{da})\]

设计动机: - 不同视差假设对应不同的前景/背景区域,需要不同的聚合策略 - 传统hourglass聚合网络统一处理所有视差假设,无法区分对待 - 动态卷积核使每个像素在每个视差平面上都有针对性的滤波权重 - 大小卷积核组合捕获互补的低频和高频信息 - 关键:使用滑窗(类标准2D卷积)保持轻量级和实时性

3. 深度感知迭代优化

功能:用GRU迭代细化视差图,将深度先验注入初始隐状态。

核心思路: - 初始视差 \(\mathbf{d}_0\) 通过soft-argmin从GGEV回归 - GRU隐状态 \(h_0\) 用深度感知特征 \(\mathbf{f}_{da,4}\) 初始化(注入结构先验) - 每次迭代:从GGEV索引几何特征 → 与当前视差拼接 → GRU更新 → 解码残差视差 - 上采样时将GRU特征与深度特征拼接生成权重图

损失函数 / 训练策略

\[\mathcal{L} = |\mathbf{d}_0 - \mathbf{d}_{gt}|_{smooth} + \sum_{i=1}^{N} \gamma^{N-i} \|\mathbf{d}_i - \mathbf{d}_{gt}\|_1\]
  • 初始视差用Smooth L1 loss,迭代视差用L1 loss
  • \(\gamma = 0.9\) 衰减因子,训练11次迭代、推理8次
  • AdamW优化器,梯度裁剪[-1,1],one-cycle学习率

实验关键数据

主实验

零样本泛化(仅Scene Flow训练)

方法 类型 KITTI 2012 KITTI 2015 Middlebury ETH3D
RT-IGEV 实时 5.8 6.6 7.8 5.8
Fast-ACVNet 实时 12.4 10.6 13.5 7.9
RAFT-Stereo 精度 4.5 5.7 9.3 3.2
DEFOM-Stereo(ViT-S) 精度 4.2 5.3 6.3 2.6
GGEV (Ours) 实时 4.1 5.5 6.5 2.8

vs RT-IGEV误差率降低:KITTI 2012 ↓29%, KITTI 2015 ↓16%, ETH3D ↓51%

Benchmark精度(微调后)

方法 KITTI 2012 3-noc KITTI 2015 D1-all ETH3D Bad 1.0 推理时间(ms)
RT-IGEV 1.29 1.79 - 40
BANet-3D 1.27 1.77 - 30
GGEV 1.10 1.70 1.19 47

消融实验

配置 Scene Flow EPE KITTI 2015 D1 ETH3D Bad 1.0 参数量(M) 推理(ms)
Baseline 0.54 8.01 3.60 - 30
+DFE(ViT-S) 0.52 6.32 3.57 - 37
+DFE+SCF 0.49 7.58 3.65 - 38
+DCA only 0.47 6.75 3.63 - 39
Full(ViT-S) 0.46 5.56 2.84 3.68 47

反光区域评估(KITTI 2012 Reflective)

方法 2-noc 3-noc
RAFT-Stereo 8.41 5.40
RT-IGEV 9.56 5.76
GGEV 7.33 4.04

关键发现

  1. 单独加深度特征编码器(DFE)提升泛化但域内效果有限:深度先验的泛化能力强,但需要自适应融合才能充分发挥
  2. SCF提升域内拟合但泛化效果混合:简单融合不足以解决复杂场景
  3. 单独DCA提升域内但泛化有限:纹理特征对无纹理区域和外观变化敏感
  4. 三者协同才能同时提升精度和泛化:SCF引入MFM泛化能力 + DDCA自适应融合 = 综合提升
  5. 在反光/困难区域表现尤其突出:比所有方法低30%以上的误差

亮点与洞察

  1. 巧妙避免scale-shift问题:不将MFM用于生成视差初始化(会有scale-shift),而是用于引导代价聚合,从根本上回避了对齐问题
  2. "用深度特征做动态卷积核"的设计新颖:亲和矩阵→动态卷积核→自适应聚合,轻量且有效
  3. 冻结MFM+可训练融合的组合:保留预训练知识的同时允许任务适配
  4. 实时+泛化的成功平衡:47ms推理(~21fps)已完全满足实时要求,同时泛化能力接近精度型方法
  5. DDCA可视化非常直观:对比初始代价体和DDCA后的代价体,可明显看到错误匹配被滤除

局限与展望

  1. ViT-L版本推理110ms失去实时性:更大backbone换来更好精度但牺牲速度
  2. 训练时无法直接处理特别大的视差范围:受限于代价体构建的显存
  3. 对极端天气和夜间场景的泛化未展示:评估主要在标准benchmark
  4. 可尝试将DDCA应用于其他需要代价聚合的任务(如光流估计)

相关工作与启发

  • RT-IGEV (Xu et al., 2025):当前最强实时方法,本文的直接baseline
  • Depth Anything V2 (Yang et al., 2024):提供冻结的深度特征编码器
  • OverLoCK (Lou & Yu, 2025):启发了DDCA的动态卷积设计
  • FoundationStereo (Wen et al., 2025):泛化型方法,用更大模型但不实时
  • MonSter (Cheng et al., 2025):双分支架构处理scale-shift,但推理慢

评分

  • 新颖性: ⭐⭐⭐⭐ — DDCA模块设计巧妙,避免scale-shift的思路有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5个benchmark、零样本+微调、消融全面、反光区域分析
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机分析极佳,可视化有说服力
  • 价值: ⭐⭐⭐⭐⭐ — 实时+泛化的需求强烈,本文提供了一个优雅的解决方案

相关论文