跳转至

Zero-Shot Monocular Scene Flow Estimation in the Wild

会议: CVPR 2025
arXiv: 2501.10357
代码: 项目页面
领域: 3D Vision / Scene Flow
关键词: 场景流, 零样本泛化, 单目估计, 点图, 大规模训练数据

一句话总结

提出首个能在野外场景零样本泛化的单目场景流估计方法,通过联合预测几何与运动、构建百万级多样训练数据、采用点图+3D偏移参数化,在 3D端点误差上全面超越现有方法。

研究背景与动机

场景流(Scene Flow)通过 3D 点的运动捕捉动态场景的几何变换,在 AR、自动驾驶、机器人等领域有广泛应用潜力,但实际中很少使用: - 现有方法泛化能力差:大多数方法仅关注自动驾驶场景,在分布外数据上性能显著下降 - 几何与运动纠缠:2D 位移是深度和运动的联合效应,单独估计必然不准确 - 标注数据稀缺:场景流比深度和光流更难测量,且不同数据集的尺度不一致(有的是度量级、有的是相对尺度) - 参数化敏感:使用"深度+光流"或"3D端点差值"的参数化都会损害结果质量 - DUSt3R/MASt3R 等大模型在静态场景几何估计上表现出色但无法处理运动 - 需要一个统一的方法同时处理几何估计和运动估计,并具备野外泛化能力

方法详解

整体框架

基于 CroCoV2 的 ViT 架构,使用双分支权重共享编码器和交叉注意解码器。三个 DPT 预测头分别输出两帧的点图 \(\hat{X_1}, \hat{X_2} \in \mathbb{R}^{H \times W \times 3}\)(在 \(C_1\) 坐标系下)和场景流偏移 \(\hat{S} \in \mathbb{R}^{H \times W \times 3}\)。使用 DUSt3R/MASt3R 预训练权重初始化几何估计部分。

关键设计1:联合几何-运动预测

功能:在统一的网络中同时预测场景几何(点图)和 3D 运动(场景流),解决几何与运动的纠缠问题。

核心思路:使用信息共享的 ViT 主干网络,编码器为双分支权重共享结构 \(\text{Enc}_v\),解码器 \(\text{Dec}_v\) 通过交叉注意力实现帧间信息交换。三个专用预测头 \(\text{H}_{X_1}, \text{H}_{X_2}, \text{H}_S\) 分别预测两帧点图和场景流偏移。由于共享内部表示,3D 几何先验帮助运动估计,运动估计头学到的时间对应关系也反过来改善几何预测。

设计动机:几何与运动的纠缠意味着二者必须联合推理。实验证明联合训练不仅提高场景流准确性,还改善了动态场景的深度估计。

关键设计2:百万级多域训练数据配方

功能:通过整合 6 个合成数据集覆盖多样场景,构建超过 100 万样本的训练数据。

核心思路:整合 SHIFT(驾驶)、Dynamic Replica(室内)、Virtual KITTI 2(驾驶)、MOVi-F(Kubric)、PointOdyssey(室内+Kubric)、Spring(动画)共 6 个数据集。不同数据集有不同标注类型(光流、场景流、深度),对仅有深度标注的数据通过光流监督场景流在图像空间的投影。关键创新是跨数据集的尺度自适应优化:对度量级和相对尺度数据集分别处理,使用尺度对齐机制统一训练。

设计动机:场景流标注稀缺是领域瓶颈,通过组合多数据集+多标注类型+尺度对齐,在不降低质量的前提下最大化数据多样性。

关键设计3:点图+3D偏移参数化

功能:选择最适合学习的场景流表示形式,避免参数化选择带来的质量损失。

核心思路:系统比较三种参数化:(1) 深度+光流(传统分解);(2) 两帧点图的差值(\(X_2 - X_1\));(3) 点图+独立3D偏移(本文方案)。方案(3)让场景流头直接学习 3D 偏移 \(S = X_{1,t_2} - X_1\) 而非依赖两个点图的差值,避免了误差累积。输出的三个映射 \(\hat{X_1}, \hat{X_2}, \hat{S}\) 分别编码 \((C_1,t_1)\)\((C_1,t_2)\) 的几何和运动变换。

设计动机:实验发现方案(1)和(2)都会显著降低结果质量,独立偏移预测避免了几何误差直接传播到场景流估计。

损失函数

回归损失组合:点图回归损失(L1/L2)+ 光流投影监督损失 + 置信度加权 + 尺度自适应对齐因子。不同数据集根据标注类型使用不同的监督信号组合。

实验关键数据

主实验:跨数据集零样本泛化

方法 KITTI SF EPE3D ↓ Spring SF EPE3D ↓ DAVIS 泛化 RoboTAP 泛化
Ours 最优 最优 ✓ 零样本 ✓ 零样本
Self-Mono-SF 次优
Depth+Flow baseline 较差 较差 部分 部分
MonST3R (concurrent) 无运动 无运动 部分 部分

消融实验:参数化选择

参数化方式 SF EPE3D ↓ 深度精度
点图+独立3D偏移(本文) 最优 最优
深度+光流 较差 较差
两帧点图差值 较差 中等

关键发现

  • 联合训练运动估计也改善了动态场景的深度估计,进一步证实几何与运动的纠缠
  • 百万级数据配方中跨域多样性是零样本泛化的关键
  • 在从未见过的 DAVIS(日常视频)和 RoboTAP(机器人操控)数据上展现出强零样本泛化
  • 参数化选择对最终质量有显著影响,独立偏移预测比差值预测或分解预测都更优

亮点与洞察

  • 首个野外零样本场景流模型:填补了场景流估计在大规模泛化方面的空白
  • 联合训练的双向收益:运动估计帮助深度估计是一个有价值的观察
  • 实用的数据工程:尺度对齐机制使混合度量/相对数据集成为可能

局限与展望

  • 训练数据全部为合成数据,合成-真实域差距仍然存在
  • 仅处理两帧之间的场景流,未扩展到多帧或视频级
  • 场景流的下游应用验证不足(如 AR 渲染、碰撞检测)
  • 未来可结合 DUSt3R/MASt3R 的持续改进进一步提升

相关工作与启发

  • 建立在 DUSt3R/MASt3R 的成功之上,展示了大规模几何预训练模型向动态场景的有效扩展
  • 与 MonST3R 相比,本方法显式建模运动场而非仅增强鲁棒性
  • 数据配方的思路可借鉴到其他数据稀缺的低层视觉任务

评分

⭐⭐⭐⭐ — 系统性地解决了单目场景流估计的三大挑战(联合预测、数据稀缺、参数化),首次实现野外零样本泛化。方法设计和数据工程都很扎实,对场景流领域具有重要推动作用。

相关论文