TC-Stereo: Temporally Consistent Stereo Matching¶

会议: ECCV 2024
arXiv: 2407.11950
代码: GitHub
领域: 3D视觉
关键词: 立体匹配, 时间一致性, 视差补全, 双空间优化, 视频立体

一句话总结¶

提出TC-Stereo，通过时序视差补全提供良好初始化、时序状态融合保持隐藏态连贯性，以及双空间（视差+视差梯度）迭代精炼改善病态区域，实现时间一致的立体匹配。

研究背景与动机¶

领域现状¶

领域现状：现有立体匹配方法逐帧独立推理，导致时间不一致。不一致的根源有两点：(1) 每帧从零开始全局搜索视差，更新步长大、变异性高；(2) 遮挡、反射等病态区域固有歧义，随帧间外观变化输出不稳定。本文从局部化搜索范围和改善病态区域两个角度解决问题。

解决思路¶

本文目标：### 整体框架

TC-Stereo在线处理立体视频序列：(1) 时序视差补全（TDC）——从前帧投影的半稠密视差生成初始稠密视差；(2) 时序状态融合——融合当前补全状态和历史精炼状态；(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。

方法详解¶

整体框架¶

TC-Stereo在线处理立体视频序列：(1) 时序视差补全（TDC）——从前帧投影的半稠密视差生成初始稠密视差；(2) 时序状态融合——融合当前补全状态和历史精炼状态；(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。

关键设计¶

半稠密视差来源: 首帧从代价体通过winner-take-all+置信度阈值筛选获取；后续帧通过位姿将前帧视差投影到当前视角，自然产生非重叠区域的空洞。

时序视差补全: 轻量编码器-解码器网络，输入包含编码器上下文特征、半稠密视差和稀疏性掩码，输出稠密视差和状态特征。

时序状态融合: 使用类GRU模块融合当前状态\(c^t\)和历史隐藏态\(h_{N-1}^{t-1}\)，解决两个问题：(1) 历史状态仅编码前一视角信息；(2) 非重叠区域无历史状态。

双空间精炼: 在视差空间用multi-level GRU更新视差（同RAFT-Stereo）；在梯度空间将视差转换为梯度场并精炼——利用真实世界深度通常局部平滑的先验。通过梯度引导的视差传播，将邻域视差按局部平面假设传播到当前像素：\(\hat{d}_n = d + (u_n-u)\frac{\partial d}{\partial u} + (v_n-v)\frac{\partial d}{\partial v}\)，用softmax加权求和得到最终视差。

损失函数¶

\[\mathcal{L} = \mathcal{L}_{cv} + \mathcal{L}_{disp} + \mathcal{L}_{grad}\]

\(\mathcal{L}_{cv}\): 代价体对比损失，最大化GT视差处相似度并保证margin
\(\mathcal{L}_{disp}\): 补全+精炼+传播三阶段的L1视差损失，指数衰减加权
\(\mathcal{L}_{grad}\): 梯度空间精炼和传播后视差梯度的L1损失

实验关键数据¶

TartanAir消融实验¶

主实验¶

设置	迭代	时序信息	状态融合	TDC	双空间	ALL >1px↓	OCC >1px↓	ALL \|Δd\|↓	OCC \|Δd\|↓
RAFT-Stereo (5iter)	5	✗	✗	✗	✗	8.04%	34.91%	0.35	1.15%
RAFT-Stereo (32iter)	32	✗	✗	✗	✗	6.02%	25.89%	0.28	0.93
+时序+融合	5	✓	✓	✗	✗	6.98%	29.89%	0.25	0.86
+时序+融合+TDC	5	✓	✓	✓	✗	6.10%	25.97%	0.23	0.78
+时序+融合+双空间	5	✓	✓	✗	✓	6.28%	25.89%	0.21	0.74
TC-Stereo (完整)	5	✓	✓	✓	✓	5.98%	24.67%	0.21	0.71

KITTI 2015排行榜¶

TC-Stereo排名第二，同时效率优于其他SOTA方法。

关键发现¶

仅5次迭代即超越RAFT-Stereo 32次迭代的精度和一致性
遮挡区域的时间抖动|Δd|从1.15降至0.71，改善38%
TDC和双空间精炼对遮挡区域的改善互补：TDC提供好的初始化，双空间精炼改善病态区域细节
直接使用前帧状态初始化（类似XR-Stereo）反而损害性能（设置C），说明状态融合的必要性

亮点与洞察¶

双空间精炼是核心创新：在梯度空间约束平滑性，迭代传播到全局，对反射/遮挡区域特别有效
时序视差补全将搜索范围从全局缩小到局部，更新步长更小更稳定
设计了两种有层次的时间一致性评估指标（绝对差|Δd|和误差发散Relu(Δe)），更全面

局限与展望¶

需要相机位姿作为输入
对快速运动或大遮挡变化的鲁棒性有待提升
双空间精炼增加了一定计算开销

评分¶

新颖性: ⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐