Zero-Shot Monocular Scene Flow Estimation in the Wild¶
会议: CVPR 2025
arXiv: 2501.10357
代码: 项目页面
领域: 3D Vision / Scene Flow
关键词: 场景流, 零样本泛化, 单目估计, 点图, 大规模训练数据
一句话总结¶
提出首个能在野外场景零样本泛化的单目场景流估计方法,通过联合预测几何与运动、构建百万级多样训练数据、采用点图+3D偏移参数化,在 3D端点误差上全面超越现有方法。
研究背景与动机¶
场景流(Scene Flow)通过 3D 点的运动捕捉动态场景的几何变换,在 AR、自动驾驶、机器人等领域有广泛应用潜力,但实际中很少使用: - 现有方法泛化能力差:大多数方法仅关注自动驾驶场景,在分布外数据上性能显著下降 - 几何与运动纠缠:2D 位移是深度和运动的联合效应,单独估计必然不准确 - 标注数据稀缺:场景流比深度和光流更难测量,且不同数据集的尺度不一致(有的是度量级、有的是相对尺度) - 参数化敏感:使用"深度+光流"或"3D端点差值"的参数化都会损害结果质量 - DUSt3R/MASt3R 等大模型在静态场景几何估计上表现出色但无法处理运动 - 需要一个统一的方法同时处理几何估计和运动估计,并具备野外泛化能力
方法详解¶
整体框架¶
基于 CroCoV2 的 ViT 架构,使用双分支权重共享编码器和交叉注意解码器。三个 DPT 预测头分别输出两帧的点图 \(\hat{X_1}, \hat{X_2} \in \mathbb{R}^{H \times W \times 3}\)(在 \(C_1\) 坐标系下)和场景流偏移 \(\hat{S} \in \mathbb{R}^{H \times W \times 3}\)。使用 DUSt3R/MASt3R 预训练权重初始化几何估计部分。
关键设计1:联合几何-运动预测¶
功能:在统一的网络中同时预测场景几何(点图)和 3D 运动(场景流),解决几何与运动的纠缠问题。
核心思路:使用信息共享的 ViT 主干网络,编码器为双分支权重共享结构 \(\text{Enc}_v\),解码器 \(\text{Dec}_v\) 通过交叉注意力实现帧间信息交换。三个专用预测头 \(\text{H}_{X_1}, \text{H}_{X_2}, \text{H}_S\) 分别预测两帧点图和场景流偏移。由于共享内部表示,3D 几何先验帮助运动估计,运动估计头学到的时间对应关系也反过来改善几何预测。
设计动机:几何与运动的纠缠意味着二者必须联合推理。实验证明联合训练不仅提高场景流准确性,还改善了动态场景的深度估计。
关键设计2:百万级多域训练数据配方¶
功能:通过整合 6 个合成数据集覆盖多样场景,构建超过 100 万样本的训练数据。
核心思路:整合 SHIFT(驾驶)、Dynamic Replica(室内)、Virtual KITTI 2(驾驶)、MOVi-F(Kubric)、PointOdyssey(室内+Kubric)、Spring(动画)共 6 个数据集。不同数据集有不同标注类型(光流、场景流、深度),对仅有深度标注的数据通过光流监督场景流在图像空间的投影。关键创新是跨数据集的尺度自适应优化:对度量级和相对尺度数据集分别处理,使用尺度对齐机制统一训练。
设计动机:场景流标注稀缺是领域瓶颈,通过组合多数据集+多标注类型+尺度对齐,在不降低质量的前提下最大化数据多样性。
关键设计3:点图+3D偏移参数化¶
功能:选择最适合学习的场景流表示形式,避免参数化选择带来的质量损失。
核心思路:系统比较三种参数化:(1) 深度+光流(传统分解);(2) 两帧点图的差值(\(X_2 - X_1\));(3) 点图+独立3D偏移(本文方案)。方案(3)让场景流头直接学习 3D 偏移 \(S = X_{1,t_2} - X_1\) 而非依赖两个点图的差值,避免了误差累积。输出的三个映射 \(\hat{X_1}, \hat{X_2}, \hat{S}\) 分别编码 \((C_1,t_1)\)、\((C_1,t_2)\) 的几何和运动变换。
设计动机:实验发现方案(1)和(2)都会显著降低结果质量,独立偏移预测避免了几何误差直接传播到场景流估计。
损失函数¶
回归损失组合:点图回归损失(L1/L2)+ 光流投影监督损失 + 置信度加权 + 尺度自适应对齐因子。不同数据集根据标注类型使用不同的监督信号组合。
实验关键数据¶
主实验:跨数据集零样本泛化¶
| 方法 | KITTI SF EPE3D ↓ | Spring SF EPE3D ↓ | DAVIS 泛化 | RoboTAP 泛化 |
|---|---|---|---|---|
| Ours | 最优 | 最优 | ✓ 零样本 | ✓ 零样本 |
| Self-Mono-SF | 次优 | 差 | ✗ | ✗ |
| Depth+Flow baseline | 较差 | 较差 | 部分 | 部分 |
| MonST3R (concurrent) | 无运动 | 无运动 | 部分 | 部分 |
消融实验:参数化选择¶
| 参数化方式 | SF EPE3D ↓ | 深度精度 |
|---|---|---|
| 点图+独立3D偏移(本文) | 最优 | 最优 |
| 深度+光流 | 较差 | 较差 |
| 两帧点图差值 | 较差 | 中等 |
关键发现¶
- 联合训练运动估计也改善了动态场景的深度估计,进一步证实几何与运动的纠缠
- 百万级数据配方中跨域多样性是零样本泛化的关键
- 在从未见过的 DAVIS(日常视频)和 RoboTAP(机器人操控)数据上展现出强零样本泛化
- 参数化选择对最终质量有显著影响,独立偏移预测比差值预测或分解预测都更优
亮点与洞察¶
- 首个野外零样本场景流模型:填补了场景流估计在大规模泛化方面的空白
- 联合训练的双向收益:运动估计帮助深度估计是一个有价值的观察
- 实用的数据工程:尺度对齐机制使混合度量/相对数据集成为可能
局限与展望¶
- 训练数据全部为合成数据,合成-真实域差距仍然存在
- 仅处理两帧之间的场景流,未扩展到多帧或视频级
- 场景流的下游应用验证不足(如 AR 渲染、碰撞检测)
- 未来可结合 DUSt3R/MASt3R 的持续改进进一步提升
相关工作与启发¶
- 建立在 DUSt3R/MASt3R 的成功之上,展示了大规模几何预训练模型向动态场景的有效扩展
- 与 MonST3R 相比,本方法显式建模运动场而非仅增强鲁棒性
- 数据配方的思路可借鉴到其他数据稀缺的低层视觉任务
评分¶
⭐⭐⭐⭐ — 系统性地解决了单目场景流估计的三大挑战(联合预测、数据稀缺、参数化),首次实现野外零样本泛化。方法设计和数据工程都很扎实,对场景流领域具有重要推动作用。
相关论文¶
- [CVPR 2025] Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera
- [CVPR 2025] Floxels: Fast Unsupervised Voxel Based Scene Flow Estimation
- [CVPR 2025] SCFlow2: Plug-and-Play Object Pose Refiner with Shape-Constraint Scene Flow
- [CVPR 2025] Extreme Rotation Estimation in the Wild
- [CVPR 2025] MVSAnywhere: Zero-Shot Multi-View Stereo