Unsupervised Moving Object Segmentation with Atmospheric Turbulence¶

会议: ECCV 2024
arXiv: 2311.03572
代码: 无（数据集页面：https://turb-research.github.io/DOST/）
领域: 分割
关键词: 无监督分割, 大气湍流, 运动分割, 区域生长, 极线几何

一句话总结¶

本文提出一种无监督方法，通过"检测-生长"（detect-then-grow）策略分割大气湍流视频中的运动目标：先用基于 Sampson 距离的极线几何一致性检查分离真实运动与湍流运动，再从高置信种子像素出发区域生长生成分割掩码，最后用时空一致性损失精细化，在首个真实湍流视频数据集 DOST 上大幅超越现有方法（IoU 提升 60.1%）。

研究背景与动机¶

领域现状：运动目标分割（MOS）是视频理解的基础任务，学习方法（包括有监督如 RVOS 和无监督如 TMO、DS-Net 等）在标准视频数据集上已取得优异表现。这些方法通常依赖光流来估计运动，并假设背景静止、目标做刚性运动。

现有痛点：当视频受到大气湍流影响时，上述假设全部崩塌。大气湍流会引入不规则、时变的像素位移——这意味着即使完全静止的背景也会呈现出"运动"，光流估计被严重干扰。更糟糕的是，长焦镜头拍摄的远距离视频对湍流特别敏感，同时还容易受到相机抖动的影响。现有的运动分割方法在正常湍流下已经性能下降，在严重湍流下几乎完全失效（IoU < 0.25）。有监督方法也无计可施，因为标注的真实湍流视频数据集几乎不存在。

核心矛盾：问题的根本挑战在于如何区分三种运动：（1）目标的真实刚性运动；（2）大气湍流导致的随机扰动；（3）相机抖动引起的全局运动。光流无法区分这三者，而现有方法要么依赖光流要么依赖外观特征（湍流也会模糊外观）。

本文目标 （1）如何从湍流干扰的光流中提取出真实的目标运动信号？（2）如何在没有标注数据的情况下生成精确的分割掩码？（3）如何保证分割掩码的时空一致性？

切入角度：作者提出一个关键洞察——目标运动违反场景的极线几何约束（因为极线几何假设静态场景），而湍流运动虽然也违反极线几何，但其扰动是随机的、幅度小的、可以通过时间平均消除的。因此，通过 Sampson 距离（衡量极线几何一致性的量度）可以有效地将真实目标运动与湍流运动分离。

核心 idea：利用 Sampson 距离将真实运动与湍流运动分离，再通过区域生长和时空一致性精细化生成无监督分割掩码。

方法详解¶

整体框架¶

输入为一段受湍流影响的视频 \(\{I_t\}_{t=1}^T\)。方法分三个阶段：（1）极线几何运动解耦——计算双向光流，通过光流稳定化和 Sampson 距离生成运动特征图 \(\{M_t\}\)，标记可能的运动区域；（2）区域生长分割——从运动特征图上选择高置信种子像素，用区域生长算法生成粗分割掩码 \(\{\beta_t^m\}\)，并通过 K-means 统一多帧的目标 ID；（3）时空精细化——用 U-Net（Refine-Net）配合像素交叉熵一致性损失和分组函数迭代精细化掩码 \(\{\alpha_t^m\}\)。

关键设计¶

极线几何运动解耦（Epipolar Geometry-based Motion Disentanglement）:
- 功能：从被湍流污染的光流中提取出真实的目标运动信号
- 核心思路：分两步走。第一步光流稳定化：将短时间窗口内的光流取平均 \(\hat{F}_t^j = \frac{1}{|\mathcal{K}_j|} \sum_{i \in \mathcal{K}_j} \frac{F_{t \to t+i}}{i}\)，利用"真实运动在短时间内一致、湍流扰动随机可消"的假设消除湍流噪声。第二步几何一致性检查：用稳定化后的光流估计相邻帧间的基础矩阵 \(\mathbf{F}\)（通过 LMedS 回归），然后计算 Sampson 距离 \(M_t^j(\mathbf{p}_1, \mathbf{p}_2) = \frac{(\mathbf{p}_2^T \mathbf{F} \mathbf{p}_1)^2}{(\mathbf{F}\mathbf{p}_1)_1^2 + (\mathbf{F}\mathbf{p}_1)_2^2 + (\mathbf{F}^T\mathbf{p}_2)_1^2 + (\mathbf{F}^T\mathbf{p}_2)_2^2}\)。静态背景满足极线约束（Sampson 距离小），运动目标违反约束（Sampson 距离大）。最后将所有可用的 Sampson 距离图取平均得到逐帧运动特征图 \(M_t\)
- 设计动机：直接用光流做运动检测在湍流下完全不可行（光流估计本身就被湍流严重干扰）。Sampson 距离巧妙地利用了"运动目标系统性违反极线约束"与"湍流随机违反极线约束"之间的统计差异——前者持续存在可以积累，后者随机出现可以消除
区域生长分割（Region Growing-based Segmentation）:
- 功能：从运动特征图中生成完整的目标分割掩码
- 核心思路：首先用滑动窗口 \(D \times D\) 在运动特征图上寻找种子区域——满足平均值 \(\bar{M}_t(W_k) > \delta_1\) 且方差 \(\sigma^2 < \delta_2\) 的窗口被选为种子。然后从种子出发向外扩展：当邻近像素的运动特征值与种子的差异小于阈值 \(\delta_{seed} = 0.2 \times M_t(\mathbf{p}_{seed})\) 时纳入掩码。对多目标场景，不同种子生成不同掩码 ID，通过 K-means 聚类各帧掩码质心来统一跨帧的 ID：\(\arg\min_{\mu_m} \sum_m \sum_t \|c_t^m - \mu_m\|^2\)
- 设计动机：运动特征图是连续值的"热图"，不是二值掩码——直接阈值化会损失边界信息。区域生长从高置信区域出发逐步扩展，自然适应目标形状，且阈值可以根据湍流强度自适应调整（强湍流用较大阈值以获得更保守的掩码）
时空一致性精细化（Spatio-Temporal Refinement）:
- 功能：消除区域生长产生的掩码噪声和帧间不一致
- 核心思路：设计 Refine-Net \(\Phi_\theta\)（U-Net 骨干），输入为视频帧 \(I_t\) 与运动特征图 \(M_t\) 的拼接，输出精细化掩码 \(\alpha_t^m\)。训练损失包含三项：（a）\(\mathcal{L}_1\)——精细化掩码与粗掩码的像素交叉熵；（b）\(\mathcal{L}_2^g\)——精细化掩码与光流 warp 后粗掩码的双向一致性；（c）\(\mathcal{L}_3^g\)——精细化掩码与其自身光流 warp 版本的双向一致性。还引入 K-means 分组函数每 3 个 epoch 更新参考掩码 \(\beta_t^m\)，综合像素的运动值和空间坐标进行前景/背景重新分配，消除空间不连续
- 设计动机：区域生长产生的掩码可能有缺口或溢出。双向一致性损失利用光流建立帧间对应关系，迫使相邻帧的掩码在 warp 后保持一致。分组函数则从全局视角约束掩码的空间连贯性

损失函数 / 训练策略¶

Refine-Net 训练分两阶段。初始化阶段（20-30 epochs）：\(\mathcal{L}_{ini} = \gamma_1 \mathcal{L}_1 + \gamma_2 \sum_g \mathcal{L}_2^g + \gamma_3 \sum_g \mathcal{L}_3^g\)。精细化阶段（10 epochs）：使用相同损失但每 3 epochs 通过分组函数更新参考掩码。光流使用 RAFT 估计，最大帧间距 4。方法完全无监督，不需要任何标注训练数据。

实验关键数据¶

主实验¶

方法	正常湍流 \(\mathcal{J}\)	严重湍流 \(\mathcal{J}\)	总体 \(\mathcal{J}\)	总体 \(\mathcal{F}\)	总体 \(\mathcal{G}\)
TMO	0.643	0.235	0.439	0.536	0.487
DSprites	0.427	0.101	0.264	0.374	0.319
DS-Net	0.361	0.191	0.276	0.327	0.302
Ours	0.851	0.557	0.703	0.723	0.713

消融实验¶

配置	IoU (\(\mathcal{J}\))	说明
Full pipeline (A+B+C)	0.703	完整模型
仅区域生长 (A)	~0.55	无精细化，掩码有缺口
A+B（无分组损失）	~0.65	时空一致性改善
w/o 光流稳定化	0.354	Sampson 距离被湍流噪声污染
w/o 几何一致性检查	0.685	运动/湍流分离不彻底
光流间距=1	~0.60	信息不足
光流间距=4	0.703	最优
光流间距=5	~0.70	增益饱和

关键发现¶

光流稳定化至关重要——去掉后 IoU 从 0.703 暴跌至 0.354，说明原始光流在湍流下完全不可靠
在严重湍流下优势最明显：TMO 降至 0.235 IoU 而我们方法仍有 0.557，因为极线几何方法对随机湍流具有天然抵抗力
方法对相机抖动也很鲁棒（IoU 0.712），因为相机运动是全局刚性运动，符合极线几何假设
SAM 等基础模型在强湍流下也失败，说明湍流确实是一个独特的挑战，不能仅靠模型规模解决
在无湍流场景中，TMO 略优于本方法——这符合预期，因为 TMO 使用了更丰富的视觉特征

亮点与洞察¶

极线几何 + 时间平均的运动解耦是本文最核心的贡献——利用了湍流运动的统计特性（随机、小幅、可消除）与真实运动的确定性特性（持续、大幅、不可消除）之间的根本差异。这个思路可以推广到其他存在全局随机扰动的场景（如水下成像、雨雾天气）
完全无监督是巨大优势——方法不需要任何标注数据，也不需要预训练。这在湍流视频标注极其困难的前提下尤为重要
DOST 数据集的贡献不可忽视——这是首个带地面真值运动分割掩码的真实湍流视频数据集（38个视频，1719帧），填补了该领域的数据空白

局限与展望¶

推理速度仅 0.95 FPS，因为需要对每个视频从头进行光流计算、区域生长和 Refine-Net 训练——无法实时处理
\(\delta_{seed}\) 阈值需要根据湍流强度手动调整（弱湍流 0.1，强湍流 0.3），缺乏自动适应机制
对重叠运动目标的分离能力有限——区域生长的非重叠约束可能导致一个目标被分配到另一个的掩码中
方法假设足够多帧来稳定化光流（至少 4-5 帧），对极短视频可能效果欠佳
未利用任何外观特征（颜色、纹理），仅依赖几何运动信息，这限制了对静止但突然开始运动的目标的检测

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性解决大气湍流下的运动分割问题，极线几何解耦思路很有创意
实验充分度: ⭐⭐⭐⭐ 提供了首个专用数据集 DOST，对比和消融充分
写作质量: ⭐⭐⭐⭐ 方法流程清晰，各模块动机明确
价值: ⭐⭐⭐⭐ 开拓了湍流视频理解的新方向，数据集是重要贡献