DeltaFlow: An Efficient Multi-frame Scene Flow Estimation Method¶

会议: NeurIPS 2025
arXiv: 2508.17054
代码: https://github.com/Kin-Zhang/DeltaFlow
领域: model_compression
关键词: scene flow, multi-frame, delta scheme, autonomous driving, computational efficiency

一句话总结¶

提出 DeltaFlow (ΔFlow)，通过体素帧间差分（Δ scheme）提取运动线索，实现特征尺寸不随帧数增长的多帧场景流估计，在 Argoverse 2/Waymo/nuScenes 上达到 SOTA 且比次优多帧方法快 2 倍。

研究背景与动机¶

领域现状：场景流估计预测连续点云帧之间每个点的 3D 运动。主流方法将点云体素化后，通过拼接多帧特征（沿通道维度）或构建 4D 时空体素来融合时序信息。
现有痛点：(1) 拼接法随帧数增加导致通道维度线性膨胀，增大内存和计算开销；(2) 4D 方法引入额外时间维度同样导致输入线性增长；(3) 类别不平衡（行人/骑行者远少于车辆）和实例级运动不一致也制约性能。
核心矛盾：想利用更多历史帧提升精度，但现有方案的计算成本随帧数线性或超线性增长，无法扩展到长时序。特征拼接/堆叠都在"积累"时序信息，但场景流本质上关注的是"变化"。
本文要解决什么：(1) 高效利用多帧信息而不增加计算开销；(2) 解决类别不平衡和实例运动一致性问题。
切入角度：场景流本质是估计"什么在变化"——直接计算帧间体素特征的差值（Δ scheme）天然聚焦于变化部分，且差值特征尺寸恒定、不随帧数增长。
核心 idea：用加权帧间差分代替特征拼接/4D 堆叠来编码时序运动线索，配合类别平衡损失和实例一致性损失提升动态物体的估计质量。

方法详解¶

整体框架¶

输入 \(N+1\) 帧点云 \(\{\mathcal{P}_{t-N}, ..., \mathcal{P}_{t-1}, \mathcal{P}_t\}\)（已做自车运动补偿）。经 PointPillars 提取点特征后体素化为稀疏体素特征 \(\mathscr{D}\)，通过 Δ scheme 计算差分特征 \(\mathscr{D}_{\text{delta}}\)，送入 MinkowskiNet 3D backbone + DeFlow decoder 估计残差场景流 \(\Delta\hat{\mathcal{F}}\)。最终场景流 = 自车运动 + 残差流。

关键设计¶

Temporal Δ Scheme:
做什么：从多帧体素特征中提取运动信号，输出特征尺寸恒定不随帧数变化。
核心公式：\(\mathscr{D}_{\text{delta}} = \sum_{n=1}^{N} \lambda^{n-1}(\mathscr{D}_t - \mathscr{D}_{t-n}) / N\)
其中 \(\lambda \in (0,1]\) 是时间衰减因子，使近帧权重更高。
设计动机：(1) 帧间差分聚焦于场景中"变化的部分"（运动物体），天然过滤静态背景，与场景流估计的核心目标一致；(2) 差分结果始终维持 \(V \times C\) 尺寸，backbone 的参数和计算量完全不受帧数影响——从 2 帧到 15 帧推理时间几乎恒定；(3) 加权求和积累移动物体的"运动轨迹"，类似于人类从运动模糊中感知运动方向。
稀疏体素表示:
做什么：将点特征聚合到非空体素中，只处理有数据的体素。
公式：\(\mathscr{D}[v_i] = \frac{\sum_{p \in \mathcal{P}^{v_i}} \mathbf{f}_p}{|\mathcal{P}^{v_i}|}\)
设计动机：保留完整 3D 结构（不像 BEV 压缩掉高度信息），同时通过稀疏存储大幅降低内存消耗。
Category-Balanced Loss:
做什么：按物体类别和速度分桶，对不同类别赋予不同权重，解决行人/骑行者等小类占比极低的问题。
公式：\(\mathcal{L}_C = \sum_{c \in \mathcal{C}} w_c \sum_{b \in \mathcal{B}} \gamma_b \frac{1}{|\mathcal{P}_{c,b}|} \sum_{p \in \mathcal{P}_{c,b}} \|\Delta\hat{\mathcal{F}}(p) - \Delta\mathcal{F}_{\text{gt}}(p)\|_2\)
设计动机：之前的 DeFlow loss 只区分静态/动态，不区分物体类别，导致安全关键的小目标（行人）被大量车辆点主导。
Instance Consistency Loss:
做什么：约束同一刚体实例内所有点共享一致的场景流。
公式：\(\mathcal{L}_I = \frac{1}{|\mathcal{I}'|} \sum_{I \in \mathcal{I}'} \omega_{c_I} \hat{e}_I \exp(\hat{e}_I)\)，其中 \(\hat{e}_I\) 是实例内平均误差，\(\exp(\hat{e}_I)\) 进一步惩罚高误差实例。
设计动机：场景流标注是逐点的，模型可能给同一车辆的不同点预测不同流向。实例级一致性约束确保刚体运动的物理合理性。

损失函数¶

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{deflow}} + \mathcal{L}_C + \mathcal{L}_I\)

实验关键数据¶

主实验（Argoverse 2 测试集，公开榜单）¶

方法	帧数	运行时间/序列	Mean Bucket-Norm ↓	Mean EPE (cm) ↓
ΔFlow (Ours)	5	8s	0.113	2.11
Flow4D	5	15s	0.145	2.24
EulerFlow	all	24h	0.130	4.23
SSF	2	5.2s	0.181	2.73
DeFlow	2	7.2s	0.276	3.43

ΔFlow 比 Flow4D 降低 22% 的 Bucket-Normalized EPE，速度快 2 倍。

数据集	方法	Mean EPE ↓
Waymo	ΔFlow	1.64
Waymo	Flow4D	2.03
nuScenes	ΔFlow	最优（降 39%）
nuScenes	Flow4D	基线

消融实验（运行时间 vs 帧数）¶

帧数	2	5	10	15
ΔFlow 时间	7.6s	8s	~8.5s	~9s
Flow4D 时间	12.8s	15s	-	-

ΔFlow 从 2 帧到 15 帧运行时间几乎不变（核心优势），而 Flow4D 随帧数线性增长。

关键发现¶

Δ scheme 在 2 帧设置下就追平了 Flow4D 的 5 帧性能，说明差分表示比拼接/堆叠更高效地利用时序信息
类别平衡损失对行人/VRU 类别提升显著（PED bucket-norm 从 0.216 降到 0.149）
跨数据集泛化能力强：在 Argoverse 2 上训练后直接迁移到 nuScenes 仍有竞争力
实例一致性损失使同一物体内的流预测更平滑，减少物理不合理的预测

亮点与洞察¶

Δ scheme 极其简洁：只是帧间差值后加权平均，但效果远超复杂的 4D 卷积方案。体现了"选择正确的表示比堆计算量更重要"的哲学。
恒定计算成本是杀手特性：backbone 参数和 FLOPs 完全不受帧数影响，使得利用任意长历史帧成为可能，这在实时自动驾驶中极有价值。
运动模糊类比很直觉：差分叠加类似于长曝光产生运动模糊，让模型从"模糊痕迹"中推断运动方向和速度。

局限性 / 可改进方向¶

Δ scheme 假设体素对齐——自车运动补偿的误差可能导致差分特征中引入噪声
类别权重 \(w_c\) 和速度系数 \(\gamma_b\) 是手动设定的，未探索自适应方案
只用了 MinkowskiNet 作为 3D backbone，未验证与其他稀疏卷积架构（如 SpConv、TorchSparse）的兼容性
对非刚体运动（如行人肢体摆动）的处理能力未详细分析

评分¶

新颖性: ⭐⭐⭐⭐ Δ scheme 想法简单但非常有效，类别平衡和实例一致性损失也有实际价值
实验充分度: ⭐⭐⭐⭐⭐ 三个大规模驾驶数据集、公开榜单验证、详细的效率分析和跨域泛化实验
写作质量: ⭐⭐⭐⭐ 图示清晰（特别是三种多帧策略的对比图），方法描述简洁易懂
价值: ⭐⭐⭐⭐⭐ 解决了多帧场景流估计的核心可扩展性问题，开源代码和预训练权重，对自动驾驶社区价值很大