WMGStereo: What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?¶

会议: CVPR 2026
arXiv: 2504.16930
代码: GitHub
领域: 3D视觉 / 立体匹配
关键词: stereo matching, synthetic data, procedural generation, zero-shot, dataset design

一句话总结¶

系统研究合成立体数据集的设计空间——变换Infinigen过程化生成参数(浮动物体密度/背景/材质/相机baseline/光照等)分析其对零样本立体匹配的影响，发现"真实室内场景+浮动物体"的组合最有效；据此构建WMGStereo-150k数据集，仅用此单一数据集训练超越SceneFlow+CREStereo+TartanAir+IRS四合一(Middlebury降28%，Booster降25%)，与FoundationStereo竞争力相当。

背景与动机¶

合成数据是训练立体匹配网络的关键，但"什么使一个数据集有效？"这个问题缺乏系统研究。现有数据集各自引入不同设计(SceneFlow飞行物体/TartanAir写实室内/FoundationStereo混合)，但同时改变多个因素，无法确定哪个因素真正重要。而且大多数数据集不开源生成代码，无法复现和修改。

核心问题¶

合成立体数据集的哪些设计参数对零样本泛化最重要？如何用这些洞察构建更有效的训练数据集？

方法详解¶

整体框架¶

基于Infinigen(过程化生成器)构建可控stereo数据生成系统。支持3种场景类型：室内+浮动物体、密集浮动物体(空场景)、自然场景。对每个参数单独变化生成5000对stereo对→训练RAFT-Stereo→评估7个benchmark的零样本性能→找最优参数组合→生成WMGStereo-150k大规模数据集。

关键发现(Tab.1)¶

浮动物体密度：最关键因素。无浮动物体→加0-10个→加10-30个，Middlebury(H)从12.52→7.78→6.60持续下降。更多浮动物体=更多几何多样性
背景物体：有背景家具 > 无背景(空房间)。所有benchmark一致提升。说明场景真实性确实有帮助(与optical flow中"realism is overrated"的结论不同)
物体类型：只用椅子→室内benchmark好但驾驶差；只用灌木→KITTI好但室内差。使用全部生成器跨benchmark最鲁棒
材质：全材质 > 单一漫反射 > 纯金属玻璃 > 无材质。材质多样性重要但非朗伯材质过多会伤害漫反射区域性能
相机baseline：宽范围[0.04, 0.4]m大幅优于窄范围。基线多样性对泛化至关重要
光照增强：效果微弱但略有帮助
场景比例：室内+浮动 > 密集浮动 > 自然(单独)。33-33-33混合最优

成本优化¶

降低室内求解器步数(550→60步)：速度4倍但家具摆放不那么真实——在固定计算budget下反而更好(更多数据>更真实)
降低光线追踪采样+去噪(1024样本+OptiX denoise vs 8192样本)：渲染时间27秒/帧
场景复用：每个室内场景放20个相机位/每个密集飞行场景随机化200次→减少CPU成本

损失函数 / 训练策略¶

RAFT-Stereo标准训练75k步(参数研究)/200k步(最终)。DLNR和Selective-IGEV也验证跨架构泛化。所有使用默认超参和增强。

实验关键数据¶

WMGStereo-150k vs 现有数据集(DLNR, 200k步)¶

训练数据	Midd-14(H)	Midd-21	ETH3D	KITTI-12	KITTI-15	Booster
SceneFlow	6.20	8.44	23.01	9.08	16.05	18.15
CREStereo	11.53	10.60	5.18	4.95	5.90	14.61
IRS	6.13	8.49	3.91	4.56	5.60	10.32
FSD(FoundationStereo)	3.27	6.93	2.13	3.56	4.18	7.51
WMGStereo-150k	3.76	6.72	2.50	3.30	4.54	9.09
FSD+WMGStereo	3.24	6.88	2.08	3.59	4.26	7.42

跨架构验证(vs Mixed=SF+CRE+Tartan+IRS 600k)¶

模型-数据	Midd-14(H)	Booster
DLNR-Mixed	5.21	12.17
DLNR-WMGStereo	3.76 (-28%)	9.09 (-25%)
RAFT-Mixed	5.50	11.46
RAFT-WMGStereo	4.48	9.17

采样效率(Fig.5)¶

仅500个WMGStereo样本 < 100K个CREStereo样本的Middlebury EPE

消融要点¶

室内+浮动物体是最佳单一场景类型
混合三种场景类型最鲁棒
高error物体(仙人掌、海胆等针状结构)和problemmatic材质(全透明玻璃、全反射金属)需移除
降低渲染质量+增加数据量(固定计算)通常更好

亮点 / 我学到了什么¶

"真实场景+随机物体"的组合超越两者单独使用: 推翻了optical flow领域"realism is overrated"的结论——对stereo来说，背景的真实几何确实提供有用的训练信号
相机baseline多样性极其重要: 单一baseline范围→严重偏向特定disparity分布。这对数据生成是简单但高效的改进
数据质量 vs 数据量的tradeoff: 降低渲染精度→虽每张略差但固定计算budget下总量更多→零样本性能更好。量>质(在足够的质的基础上)
500样本WMGStereo > 100K CREStereo: 数据集的设计比规模更重要
开源生成代码的价值: 与FSD(静态数据集)不同，WMGStereo提供生成代码，允许针对特定领域定制数据

局限性 / 可改进方向¶

非朗伯表面(玻璃/金属)仍是瓶颈——当前移除了high-error材质作为折衷
自然场景类型(Nature)独立表现最差，可能需要更好的自然物体生成和相机放置
未涉及动态/temporal stereo的数据生成
与FoundationStereo的差距主要在architecture+data的联合设计上

与相关工作的对比¶

vs FoundationStereo数据集(FSD): FSD同时引入很多新特性+新架构，本文分离并分析每个因素的贡献。WMGStereo与FSD互补(两者合用更好)
vs SceneFlow/FlyingThings3D: 经典飞行物体数据集，但缺乏场景真实性和材质多样性。WMGStereo用约1/4的数据量大幅超越
vs Mayer et al.(2018)的flow数据研究: 那个研究聚焦2D warp+光学流，结论"realism overrated"。本文在3D stereo中发现背景真实性确实有帮助

与我的研究方向的关联¶

"什么使合成数据有效？"的方法论对任何使用合成数据的任务都有参考价值
过程化生成+系统消融的实验范式值得学习
3D视觉领域但与核心关注方向距离适中

评分¶

新颖性: ⭐⭐⭐⭐ 系统的参数分析是该领域首次，洞察有实用价值(尤其background+floating objects的组合)
实验充分度: ⭐⭐⭐⭐⭐ 7个benchmark、多种架构、极其详细的参数消融(Tab.1每行一个实验)、采样效率分析、held-out benchmark验证
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、发现描述直观、开源贡献完整
对我的价值: ⭐⭐⭐ stereo matching非核心方向，但合成数据设计的方法论有借鉴意义