跳转至

TC-Stereo: Temporally Consistent Stereo Matching

会议: ECCV 2024
arXiv: 2407.11950
代码: GitHub
领域: 3D视觉
关键词: 立体匹配, 时间一致性, 视差补全, 双空间优化, 视频立体

一句话总结

提出TC-Stereo,通过时序视差补全提供良好初始化、时序状态融合保持隐藏态连贯性,以及双空间(视差+视差梯度)迭代精炼改善病态区域,实现时间一致的立体匹配。

研究背景与动机

领域现状

领域现状:现有立体匹配方法逐帧独立推理,导致时间不一致。不一致的根源有两点:(1) 每帧从零开始全局搜索视差,更新步长大、变异性高;(2) 遮挡、反射等病态区域固有歧义,随帧间外观变化输出不稳定。本文从局部化搜索范围和改善病态区域两个角度解决问题。

解决思路

本文目标:### 整体框架

TC-Stereo在线处理立体视频序列:(1) 时序视差补全(TDC)——从前帧投影的半稠密视差生成初始稠密视差;(2) 时序状态融合——融合当前补全状态和历史精炼状态;(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。

方法详解

整体框架

TC-Stereo在线处理立体视频序列:(1) 时序视差补全(TDC)——从前帧投影的半稠密视差生成初始稠密视差;(2) 时序状态融合——融合当前补全状态和历史精炼状态;(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。

关键设计

半稠密视差来源: 首帧从代价体通过winner-take-all+置信度阈值筛选获取;后续帧通过位姿将前帧视差投影到当前视角,自然产生非重叠区域的空洞。

时序视差补全: 轻量编码器-解码器网络,输入包含编码器上下文特征、半稠密视差和稀疏性掩码,输出稠密视差和状态特征。

时序状态融合: 使用类GRU模块融合当前状态\(c^t\)和历史隐藏态\(h_{N-1}^{t-1}\),解决两个问题:(1) 历史状态仅编码前一视角信息;(2) 非重叠区域无历史状态。

双空间精炼: 在视差空间用multi-level GRU更新视差(同RAFT-Stereo);在梯度空间将视差转换为梯度场并精炼——利用真实世界深度通常局部平滑的先验。通过梯度引导的视差传播,将邻域视差按局部平面假设传播到当前像素:\(\hat{d}_n = d + (u_n-u)\frac{\partial d}{\partial u} + (v_n-v)\frac{\partial d}{\partial v}\),用softmax加权求和得到最终视差。

损失函数

\[\mathcal{L} = \mathcal{L}_{cv} + \mathcal{L}_{disp} + \mathcal{L}_{grad}\]
  • \(\mathcal{L}_{cv}\): 代价体对比损失,最大化GT视差处相似度并保证margin
  • \(\mathcal{L}_{disp}\): 补全+精炼+传播三阶段的L1视差损失,指数衰减加权
  • \(\mathcal{L}_{grad}\): 梯度空间精炼和传播后视差梯度的L1损失

实验关键数据

TartanAir消融实验

主实验

设置 迭代 时序信息 状态融合 TDC 双空间 ALL >1px↓ OCC >1px↓ ALL |Δd|↓ OCC |Δd|↓
RAFT-Stereo (5iter) 5 8.04% 34.91% 0.35 1.15%
RAFT-Stereo (32iter) 32 6.02% 25.89% 0.28 0.93
+时序+融合 5 6.98% 29.89% 0.25 0.86
+时序+融合+TDC 5 6.10% 25.97% 0.23 0.78
+时序+融合+双空间 5 6.28% 25.89% 0.21 0.74
TC-Stereo (完整) 5 5.98% 24.67% 0.21 0.71

KITTI 2015排行榜

TC-Stereo排名第二,同时效率优于其他SOTA方法。

关键发现

  • 仅5次迭代即超越RAFT-Stereo 32次迭代的精度和一致性
  • 遮挡区域的时间抖动|Δd|从1.15降至0.71,改善38%
  • TDC和双空间精炼对遮挡区域的改善互补:TDC提供好的初始化,双空间精炼改善病态区域细节
  • 直接使用前帧状态初始化(类似XR-Stereo)反而损害性能(设置C),说明状态融合的必要性

亮点与洞察

  1. 双空间精炼是核心创新:在梯度空间约束平滑性,迭代传播到全局,对反射/遮挡区域特别有效
  2. 时序视差补全将搜索范围从全局缩小到局部,更新步长更小更稳定
  3. 设计了两种有层次的时间一致性评估指标(绝对差|Δd|和误差发散Relu(Δe)),更全面

局限与展望

  • 需要相机位姿作为输入
  • 对快速运动或大遮挡变化的鲁棒性有待提升
  • 双空间精炼增加了一定计算开销

相关工作与启发

将视频信息引入立体匹配的思路日趋流行(Dynamic-Stereo、TemporalStereo)。本文的视差梯度空间精炼思路可推广到单目深度估计等任务。

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实用性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐

相关论文