Unsupervised Moving Object Segmentation with Atmospheric Turbulence¶
会议: ECCV 2024
arXiv: 2311.03572
代码: 无(数据集页面:https://turb-research.github.io/DOST/)
领域: 分割
关键词: 无监督分割, 大气湍流, 运动分割, 区域生长, 极线几何
一句话总结¶
本文提出一种无监督方法,通过"检测-生长"(detect-then-grow)策略分割大气湍流视频中的运动目标:先用基于 Sampson 距离的极线几何一致性检查分离真实运动与湍流运动,再从高置信种子像素出发区域生长生成分割掩码,最后用时空一致性损失精细化,在首个真实湍流视频数据集 DOST 上大幅超越现有方法(IoU 提升 60.1%)。
研究背景与动机¶
领域现状:运动目标分割(MOS)是视频理解的基础任务,学习方法(包括有监督如 RVOS 和无监督如 TMO、DS-Net 等)在标准视频数据集上已取得优异表现。这些方法通常依赖光流来估计运动,并假设背景静止、目标做刚性运动。
现有痛点:当视频受到大气湍流影响时,上述假设全部崩塌。大气湍流会引入不规则、时变的像素位移——这意味着即使完全静止的背景也会呈现出"运动",光流估计被严重干扰。更糟糕的是,长焦镜头拍摄的远距离视频对湍流特别敏感,同时还容易受到相机抖动的影响。现有的运动分割方法在正常湍流下已经性能下降,在严重湍流下几乎完全失效(IoU < 0.25)。有监督方法也无计可施,因为标注的真实湍流视频数据集几乎不存在。
核心矛盾:问题的根本挑战在于如何区分三种运动:(1)目标的真实刚性运动;(2)大气湍流导致的随机扰动;(3)相机抖动引起的全局运动。光流无法区分这三者,而现有方法要么依赖光流要么依赖外观特征(湍流也会模糊外观)。
本文目标 (1)如何从湍流干扰的光流中提取出真实的目标运动信号?(2)如何在没有标注数据的情况下生成精确的分割掩码?(3)如何保证分割掩码的时空一致性?
切入角度:作者提出一个关键洞察——目标运动违反场景的极线几何约束(因为极线几何假设静态场景),而湍流运动虽然也违反极线几何,但其扰动是随机的、幅度小的、可以通过时间平均消除的。因此,通过 Sampson 距离(衡量极线几何一致性的量度)可以有效地将真实目标运动与湍流运动分离。
核心 idea:利用 Sampson 距离将真实运动与湍流运动分离,再通过区域生长和时空一致性精细化生成无监督分割掩码。
方法详解¶
整体框架¶
输入为一段受湍流影响的视频 \(\{I_t\}_{t=1}^T\)。方法分三个阶段:(1)极线几何运动解耦——计算双向光流,通过光流稳定化和 Sampson 距离生成运动特征图 \(\{M_t\}\),标记可能的运动区域;(2)区域生长分割——从运动特征图上选择高置信种子像素,用区域生长算法生成粗分割掩码 \(\{\beta_t^m\}\),并通过 K-means 统一多帧的目标 ID;(3)时空精细化——用 U-Net(Refine-Net)配合像素交叉熵一致性损失和分组函数迭代精细化掩码 \(\{\alpha_t^m\}\)。
关键设计¶
-
极线几何运动解耦(Epipolar Geometry-based Motion Disentanglement):
- 功能:从被湍流污染的光流中提取出真实的目标运动信号
- 核心思路:分两步走。第一步光流稳定化:将短时间窗口内的光流取平均 \(\hat{F}_t^j = \frac{1}{|\mathcal{K}_j|} \sum_{i \in \mathcal{K}_j} \frac{F_{t \to t+i}}{i}\),利用"真实运动在短时间内一致、湍流扰动随机可消"的假设消除湍流噪声。第二步几何一致性检查:用稳定化后的光流估计相邻帧间的基础矩阵 \(\mathbf{F}\)(通过 LMedS 回归),然后计算 Sampson 距离 \(M_t^j(\mathbf{p}_1, \mathbf{p}_2) = \frac{(\mathbf{p}_2^T \mathbf{F} \mathbf{p}_1)^2}{(\mathbf{F}\mathbf{p}_1)_1^2 + (\mathbf{F}\mathbf{p}_1)_2^2 + (\mathbf{F}^T\mathbf{p}_2)_1^2 + (\mathbf{F}^T\mathbf{p}_2)_2^2}\)。静态背景满足极线约束(Sampson 距离小),运动目标违反约束(Sampson 距离大)。最后将所有可用的 Sampson 距离图取平均得到逐帧运动特征图 \(M_t\)
- 设计动机:直接用光流做运动检测在湍流下完全不可行(光流估计本身就被湍流严重干扰)。Sampson 距离巧妙地利用了"运动目标系统性违反极线约束"与"湍流随机违反极线约束"之间的统计差异——前者持续存在可以积累,后者随机出现可以消除
-
区域生长分割(Region Growing-based Segmentation):
- 功能:从运动特征图中生成完整的目标分割掩码
- 核心思路:首先用滑动窗口 \(D \times D\) 在运动特征图上寻找种子区域——满足平均值 \(\bar{M}_t(W_k) > \delta_1\) 且方差 \(\sigma^2 < \delta_2\) 的窗口被选为种子。然后从种子出发向外扩展:当邻近像素的运动特征值与种子的差异小于阈值 \(\delta_{seed} = 0.2 \times M_t(\mathbf{p}_{seed})\) 时纳入掩码。对多目标场景,不同种子生成不同掩码 ID,通过 K-means 聚类各帧掩码质心来统一跨帧的 ID:\(\arg\min_{\mu_m} \sum_m \sum_t \|c_t^m - \mu_m\|^2\)
- 设计动机:运动特征图是连续值的"热图",不是二值掩码——直接阈值化会损失边界信息。区域生长从高置信区域出发逐步扩展,自然适应目标形状,且阈值可以根据湍流强度自适应调整(强湍流用较大阈值以获得更保守的掩码)
-
时空一致性精细化(Spatio-Temporal Refinement):
- 功能:消除区域生长产生的掩码噪声和帧间不一致
- 核心思路:设计 Refine-Net \(\Phi_\theta\)(U-Net 骨干),输入为视频帧 \(I_t\) 与运动特征图 \(M_t\) 的拼接,输出精细化掩码 \(\alpha_t^m\)。训练损失包含三项:(a)\(\mathcal{L}_1\)——精细化掩码与粗掩码的像素交叉熵;(b)\(\mathcal{L}_2^g\)——精细化掩码与光流 warp 后粗掩码的双向一致性;(c)\(\mathcal{L}_3^g\)——精细化掩码与其自身光流 warp 版本的双向一致性。还引入 K-means 分组函数每 3 个 epoch 更新参考掩码 \(\beta_t^m\),综合像素的运动值和空间坐标进行前景/背景重新分配,消除空间不连续
- 设计动机:区域生长产生的掩码可能有缺口或溢出。双向一致性损失利用光流建立帧间对应关系,迫使相邻帧的掩码在 warp 后保持一致。分组函数则从全局视角约束掩码的空间连贯性
损失函数 / 训练策略¶
Refine-Net 训练分两阶段。初始化阶段(20-30 epochs):\(\mathcal{L}_{ini} = \gamma_1 \mathcal{L}_1 + \gamma_2 \sum_g \mathcal{L}_2^g + \gamma_3 \sum_g \mathcal{L}_3^g\)。精细化阶段(10 epochs):使用相同损失但每 3 epochs 通过分组函数更新参考掩码。光流使用 RAFT 估计,最大帧间距 4。方法完全无监督,不需要任何标注训练数据。
实验关键数据¶
主实验¶
| 方法 | 正常湍流 \(\mathcal{J}\) | 严重湍流 \(\mathcal{J}\) | 总体 \(\mathcal{J}\) | 总体 \(\mathcal{F}\) | 总体 \(\mathcal{G}\) |
|---|---|---|---|---|---|
| TMO | 0.643 | 0.235 | 0.439 | 0.536 | 0.487 |
| DSprites | 0.427 | 0.101 | 0.264 | 0.374 | 0.319 |
| DS-Net | 0.361 | 0.191 | 0.276 | 0.327 | 0.302 |
| Ours | 0.851 | 0.557 | 0.703 | 0.723 | 0.713 |
消融实验¶
| 配置 | IoU (\(\mathcal{J}\)) | 说明 |
|---|---|---|
| Full pipeline (A+B+C) | 0.703 | 完整模型 |
| 仅区域生长 (A) | ~0.55 | 无精细化,掩码有缺口 |
| A+B(无分组损失) | ~0.65 | 时空一致性改善 |
| w/o 光流稳定化 | 0.354 | Sampson 距离被湍流噪声污染 |
| w/o 几何一致性检查 | 0.685 | 运动/湍流分离不彻底 |
| 光流间距=1 | ~0.60 | 信息不足 |
| 光流间距=4 | 0.703 | 最优 |
| 光流间距=5 | ~0.70 | 增益饱和 |
关键发现¶
- 光流稳定化至关重要——去掉后 IoU 从 0.703 暴跌至 0.354,说明原始光流在湍流下完全不可靠
- 在严重湍流下优势最明显:TMO 降至 0.235 IoU 而我们方法仍有 0.557,因为极线几何方法对随机湍流具有天然抵抗力
- 方法对相机抖动也很鲁棒(IoU 0.712),因为相机运动是全局刚性运动,符合极线几何假设
- SAM 等基础模型在强湍流下也失败,说明湍流确实是一个独特的挑战,不能仅靠模型规模解决
- 在无湍流场景中,TMO 略优于本方法——这符合预期,因为 TMO 使用了更丰富的视觉特征
亮点与洞察¶
- 极线几何 + 时间平均的运动解耦是本文最核心的贡献——利用了湍流运动的统计特性(随机、小幅、可消除)与真实运动的确定性特性(持续、大幅、不可消除)之间的根本差异。这个思路可以推广到其他存在全局随机扰动的场景(如水下成像、雨雾天气)
- 完全无监督是巨大优势——方法不需要任何标注数据,也不需要预训练。这在湍流视频标注极其困难的前提下尤为重要
- DOST 数据集的贡献不可忽视——这是首个带地面真值运动分割掩码的真实湍流视频数据集(38个视频,1719帧),填补了该领域的数据空白
局限与展望¶
- 推理速度仅 0.95 FPS,因为需要对每个视频从头进行光流计算、区域生长和 Refine-Net 训练——无法实时处理
- \(\delta_{seed}\) 阈值需要根据湍流强度手动调整(弱湍流 0.1,强湍流 0.3),缺乏自动适应机制
- 对重叠运动目标的分离能力有限——区域生长的非重叠约束可能导致一个目标被分配到另一个的掩码中
- 方法假设足够多帧来稳定化光流(至少 4-5 帧),对极短视频可能效果欠佳
- 未利用任何外观特征(颜色、纹理),仅依赖几何运动信息,这限制了对静止但突然开始运动的目标的检测
相关工作与启发¶
- vs TMO: TMO 优先使用视觉特征而非运动,在正常视频表现好但在湍流下失效,因为湍流破坏了外观一致性;本方法纯几何方法在湍流下更鲁棒
- vs Deformable Sprites: 用光流引导的分组损失做分割,但其光流在湍流下不可靠;本方法先稳定化光流再使用
- vs SAM: 大规模预训练的分割基础模型在强湍流下也失败,说明湍流是模型无关的底层挑战
- vs 传统湍流恢复方法: 先恢复再分割的流水线可能引入恢复误差;本方法直接在湍流视频上分割,避免了级联误差
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性解决大气湍流下的运动分割问题,极线几何解耦思路很有创意
- 实验充分度: ⭐⭐⭐⭐ 提供了首个专用数据集 DOST,对比和消融充分
- 写作质量: ⭐⭐⭐⭐ 方法流程清晰,各模块动机明确
- 价值: ⭐⭐⭐⭐ 开拓了湍流视频理解的新方向,数据集是重要贡献
相关论文¶
- [ECCV 2024] Un-EVIMO: Unsupervised Event-based Independent Motion Segmentation
- [CVPR 2025] ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
- [ECCV 2024] SOS: Segment Object System for Open-World Instance Segmentation With Object Priors
- [ECCV 2024] ActionVOS: Actions as Prompts for Video Object Segmentation
- [ICML 2025] unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning