TC-Stereo: Temporally Consistent Stereo Matching¶
会议: ECCV 2024
arXiv: 2407.11950
代码: GitHub
领域: 3D视觉
关键词: 立体匹配, 时间一致性, 视差补全, 双空间优化, 视频立体
一句话总结¶
提出TC-Stereo,通过时序视差补全提供良好初始化、时序状态融合保持隐藏态连贯性,以及双空间(视差+视差梯度)迭代精炼改善病态区域,实现时间一致的立体匹配。
研究背景与动机¶
领域现状¶
领域现状:现有立体匹配方法逐帧独立推理,导致时间不一致。不一致的根源有两点:(1) 每帧从零开始全局搜索视差,更新步长大、变异性高;(2) 遮挡、反射等病态区域固有歧义,随帧间外观变化输出不稳定。本文从局部化搜索范围和改善病态区域两个角度解决问题。
解决思路¶
本文目标:### 整体框架
TC-Stereo在线处理立体视频序列:(1) 时序视差补全(TDC)——从前帧投影的半稠密视差生成初始稠密视差;(2) 时序状态融合——融合当前补全状态和历史精炼状态;(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。
方法详解¶
整体框架¶
TC-Stereo在线处理立体视频序列:(1) 时序视差补全(TDC)——从前帧投影的半稠密视差生成初始稠密视差;(2) 时序状态融合——融合当前补全状态和历史精炼状态;(3) 双空间迭代精炼——在视差空间和视差梯度空间交替优化。
关键设计¶
半稠密视差来源: 首帧从代价体通过winner-take-all+置信度阈值筛选获取;后续帧通过位姿将前帧视差投影到当前视角,自然产生非重叠区域的空洞。
时序视差补全: 轻量编码器-解码器网络,输入包含编码器上下文特征、半稠密视差和稀疏性掩码,输出稠密视差和状态特征。
时序状态融合: 使用类GRU模块融合当前状态\(c^t\)和历史隐藏态\(h_{N-1}^{t-1}\),解决两个问题:(1) 历史状态仅编码前一视角信息;(2) 非重叠区域无历史状态。
双空间精炼: 在视差空间用multi-level GRU更新视差(同RAFT-Stereo);在梯度空间将视差转换为梯度场并精炼——利用真实世界深度通常局部平滑的先验。通过梯度引导的视差传播,将邻域视差按局部平面假设传播到当前像素:\(\hat{d}_n = d + (u_n-u)\frac{\partial d}{\partial u} + (v_n-v)\frac{\partial d}{\partial v}\),用softmax加权求和得到最终视差。
损失函数¶
- \(\mathcal{L}_{cv}\): 代价体对比损失,最大化GT视差处相似度并保证margin
- \(\mathcal{L}_{disp}\): 补全+精炼+传播三阶段的L1视差损失,指数衰减加权
- \(\mathcal{L}_{grad}\): 梯度空间精炼和传播后视差梯度的L1损失
实验关键数据¶
TartanAir消融实验¶
主实验¶
| 设置 | 迭代 | 时序信息 | 状态融合 | TDC | 双空间 | ALL >1px↓ | OCC >1px↓ | ALL |Δd|↓ | OCC |Δd|↓ |
|---|---|---|---|---|---|---|---|---|---|
| RAFT-Stereo (5iter) | 5 | ✗ | ✗ | ✗ | ✗ | 8.04% | 34.91% | 0.35 | 1.15% |
| RAFT-Stereo (32iter) | 32 | ✗ | ✗ | ✗ | ✗ | 6.02% | 25.89% | 0.28 | 0.93 |
| +时序+融合 | 5 | ✓ | ✓ | ✗ | ✗ | 6.98% | 29.89% | 0.25 | 0.86 |
| +时序+融合+TDC | 5 | ✓ | ✓ | ✓ | ✗ | 6.10% | 25.97% | 0.23 | 0.78 |
| +时序+融合+双空间 | 5 | ✓ | ✓ | ✗ | ✓ | 6.28% | 25.89% | 0.21 | 0.74 |
| TC-Stereo (完整) | 5 | ✓ | ✓ | ✓ | ✓ | 5.98% | 24.67% | 0.21 | 0.71 |
KITTI 2015排行榜¶
TC-Stereo排名第二,同时效率优于其他SOTA方法。
关键发现¶
- 仅5次迭代即超越RAFT-Stereo 32次迭代的精度和一致性
- 遮挡区域的时间抖动|Δd|从1.15降至0.71,改善38%
- TDC和双空间精炼对遮挡区域的改善互补:TDC提供好的初始化,双空间精炼改善病态区域细节
- 直接使用前帧状态初始化(类似XR-Stereo)反而损害性能(设置C),说明状态融合的必要性
亮点与洞察¶
- 双空间精炼是核心创新:在梯度空间约束平滑性,迭代传播到全局,对反射/遮挡区域特别有效
- 时序视差补全将搜索范围从全局缩小到局部,更新步长更小更稳定
- 设计了两种有层次的时间一致性评估指标(绝对差|Δd|和误差发散Relu(Δe)),更全面
局限与展望¶
- 需要相机位姿作为输入
- 对快速运动或大遮挡变化的鲁棒性有待提升
- 双空间精炼增加了一定计算开销
相关工作与启发¶
将视频信息引入立体匹配的思路日趋流行(Dynamic-Stereo、TemporalStereo)。本文的视差梯度空间精炼思路可推广到单目深度估计等任务。
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实用性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
相关论文¶
- [ICCV 2025] Stereo Any Video: Temporally Consistent Stereo Matching
- [CVPR 2025] DEFOM-Stereo: Depth Foundation Model Based Stereo Matching
- [ECCV 2024] TCC-Det: Temporarily Consistent Cues for Weakly-Supervised 3D Detection
- [CVPR 2026] Lite Any Stereo: Efficient Zero-Shot Stereo Matching
- [ECCV 2024] MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo