Zero-Shot Monocular Scene Flow Estimation in the Wild¶

会议: CVPR 2025
arXiv: 2501.10357
代码: 项目页面
领域: 3D Vision / Scene Flow
关键词: 场景流, 零样本泛化, 单目估计, 点图, 大规模训练数据

一句话总结¶

提出首个能在野外场景零样本泛化的单目场景流估计方法，通过联合预测几何与运动、构建百万级多样训练数据、采用点图+3D偏移参数化，在 3D端点误差上全面超越现有方法。

研究背景与动机¶

场景流（Scene Flow）通过 3D 点的运动捕捉动态场景的几何变换，在 AR、自动驾驶、机器人等领域有广泛应用潜力，但实际中很少使用： - 现有方法泛化能力差：大多数方法仅关注自动驾驶场景，在分布外数据上性能显著下降 - 几何与运动纠缠：2D 位移是深度和运动的联合效应，单独估计必然不准确 - 标注数据稀缺：场景流比深度和光流更难测量，且不同数据集的尺度不一致（有的是度量级、有的是相对尺度） - 参数化敏感：使用"深度+光流"或"3D端点差值"的参数化都会损害结果质量 - DUSt3R/MASt3R 等大模型在静态场景几何估计上表现出色但无法处理运动 - 需要一个统一的方法同时处理几何估计和运动估计，并具备野外泛化能力

方法详解¶

整体框架¶

基于 CroCoV2 的 ViT 架构，使用双分支权重共享编码器和交叉注意解码器。三个 DPT 预测头分别输出两帧的点图 \(\hat{X_1}, \hat{X_2} \in \mathbb{R}^{H \times W \times 3}\)（在 \(C_1\) 坐标系下）和场景流偏移 \(\hat{S} \in \mathbb{R}^{H \times W \times 3}\)。使用 DUSt3R/MASt3R 预训练权重初始化几何估计部分。

关键设计1：联合几何-运动预测¶

功能：在统一的网络中同时预测场景几何（点图）和 3D 运动（场景流），解决几何与运动的纠缠问题。

核心思路：使用信息共享的 ViT 主干网络，编码器为双分支权重共享结构 \(\text{Enc}_v\)，解码器 \(\text{Dec}_v\) 通过交叉注意力实现帧间信息交换。三个专用预测头 \(\text{H}_{X_1}, \text{H}_{X_2}, \text{H}_S\) 分别预测两帧点图和场景流偏移。由于共享内部表示，3D 几何先验帮助运动估计，运动估计头学到的时间对应关系也反过来改善几何预测。

设计动机：几何与运动的纠缠意味着二者必须联合推理。实验证明联合训练不仅提高场景流准确性，还改善了动态场景的深度估计。

关键设计2：百万级多域训练数据配方¶

功能：通过整合 6 个合成数据集覆盖多样场景，构建超过 100 万样本的训练数据。

核心思路：整合 SHIFT（驾驶）、Dynamic Replica（室内）、Virtual KITTI 2（驾驶）、MOVi-F（Kubric）、PointOdyssey（室内+Kubric）、Spring（动画）共 6 个数据集。不同数据集有不同标注类型（光流、场景流、深度），对仅有深度标注的数据通过光流监督场景流在图像空间的投影。关键创新是跨数据集的尺度自适应优化：对度量级和相对尺度数据集分别处理，使用尺度对齐机制统一训练。

设计动机：场景流标注稀缺是领域瓶颈，通过组合多数据集+多标注类型+尺度对齐，在不降低质量的前提下最大化数据多样性。

关键设计3：点图+3D偏移参数化¶

功能：选择最适合学习的场景流表示形式，避免参数化选择带来的质量损失。

核心思路：系统比较三种参数化：(1) 深度+光流（传统分解）；(2) 两帧点图的差值（\(X_2 - X_1\)）；(3) 点图+独立3D偏移（本文方案）。方案(3)让场景流头直接学习 3D 偏移 \(S = X_{1,t_2} - X_1\) 而非依赖两个点图的差值，避免了误差累积。输出的三个映射 \(\hat{X_1}, \hat{X_2}, \hat{S}\) 分别编码 \((C_1,t_1)\)、\((C_1,t_2)\) 的几何和运动变换。

设计动机：实验发现方案(1)和(2)都会显著降低结果质量，独立偏移预测避免了几何误差直接传播到场景流估计。

损失函数¶

回归损失组合：点图回归损失（L1/L2）+ 光流投影监督损失 + 置信度加权 + 尺度自适应对齐因子。不同数据集根据标注类型使用不同的监督信号组合。

实验关键数据¶

主实验：跨数据集零样本泛化¶

方法	KITTI SF EPE3D ↓	Spring SF EPE3D ↓	DAVIS 泛化	RoboTAP 泛化
Ours	最优	最优	✓ 零样本	✓ 零样本
Self-Mono-SF	次优	差	✗	✗
Depth+Flow baseline	较差	较差	部分	部分
MonST3R (concurrent)	无运动	无运动	部分	部分

消融实验：参数化选择¶

参数化方式	SF EPE3D ↓	深度精度
点图+独立3D偏移（本文）	最优	最优
深度+光流	较差	较差
两帧点图差值	较差	中等

关键发现¶

联合训练运动估计也改善了动态场景的深度估计，进一步证实几何与运动的纠缠
百万级数据配方中跨域多样性是零样本泛化的关键
在从未见过的 DAVIS（日常视频）和 RoboTAP（机器人操控）数据上展现出强零样本泛化
参数化选择对最终质量有显著影响，独立偏移预测比差值预测或分解预测都更优

亮点与洞察¶

首个野外零样本场景流模型：填补了场景流估计在大规模泛化方面的空白
联合训练的双向收益：运动估计帮助深度估计是一个有价值的观察
实用的数据工程：尺度对齐机制使混合度量/相对数据集成为可能

局限与展望¶

训练数据全部为合成数据，合成-真实域差距仍然存在
仅处理两帧之间的场景流，未扩展到多帧或视频级
场景流的下游应用验证不足（如 AR 渲染、碰撞检测）
未来可结合 DUSt3R/MASt3R 的持续改进进一步提升

评分¶

⭐⭐⭐⭐ — 系统性地解决了单目场景流估计的三大挑战（联合预测、数据稀缺、参数化），首次实现野外零样本泛化。方法设计和数据工程都很扎实，对场景流领域具有重要推动作用。