跳转至

Towards Generalizable Scene Change Detection

会议: CVPR 2025
arXiv: 2409.06214
代码: 有(论文中提及)
领域: 图像分割 / 变化检测
关键词: 场景变化检测, 零样本, SAM, 泛化能力, 时序一致性

一句话总结

提出首个零样本场景变化检测框架 GeSCF,利用 SAM 内部特征实现跨域泛化且时序一致的变化掩码生成,同时定义了泛化 SCD 基准。

研究背景与动机

场景变化检测 (SCD) 在视觉监控、异常检测、自主驾驶等领域至关重要,但现有 SOTA 方法严重依赖训练数据集——在未见环境中性能从 77.6% 骤降至 8.0%,不同时序条件下降至 4.6%。核心问题有二:(1) 泛化性差:现有方法在特定数据集上训练和评估,无法适应新场景;(2) 时序不一致:输入顺序反转时产生不同的变化掩码。在 SAM 等"anything"模型的零样本泛化能力日益强大的时代,如何让 SCD 也具备 "anything" 能力成为关键挑战。然而 SAM 设计为单图交互式分割,直接用于双图变化检测存在本质差异。本文通过初始伪掩码生成和几何-语义匹配两个创新步骤,巧妙弥合了这一鸿沟。

方法详解

整体框架

GeSCF 零训练管线包含两个主要步骤:(1) 初始伪掩码生成——截获 SAM 编码器中间层的 facet 特征,计算双时间图像的多头特征相关性获取相似度图,通过自适应阈值函数转化为二值伪掩码;(2) 几何-语义掩码匹配——利用 SAM 的类无关掩码提案进行几何交叉匹配 (GIM),再通过掩码嵌入的语义相似度匹配 (SSM) 精化最终变化掩码。

关键设计

  1. 多头特征相关性 + 自适应阈值:截获 SAM ViT 编码器中间层的 key facet 特征 \(\mathbf{F}_{l,n}\),计算双时间图像的交换特征相关性 \(\bar{\mathbf{S}}_{l,n}^{t_0 \leftrightarrow t_1} = \mathbf{F}_{l,n}^{t_0} \cdot (\mathbf{F}_{l,n}^{t_1})^\top\)。该操作天然交换不变(保证时序一致性),聚合多头后得到相似度图。关键创新是基于偏度的自适应阈值 \(\mathbf{F}(\gamma) = b_\gamma + c \cdot \text{sign}(\gamma) \cdot s_\gamma \cdot \gamma\),根据相似度分布的形态动态调整阈值,解决了固定阈值无法适应不同场景的问题。

  2. 几何交叉匹配 (GIM):计算每个 SAM 掩码与伪掩码的交叉比 \(\alpha\),保留超过阈值 \(\alpha_t\) 的掩码,将像素级分析提升到物体级变化检测。对两个时间步的图像分别处理,保持交换不变性。

  3. 语义相似度匹配 (SSM):GIM 可能包含因伪掩码噪声导致的未变化区域。通过提取双时间掩码嵌入 \(\mathcal{M}_{l,o}^{t_0}\)\(\mathcal{M}_{l,o}^{t_1}\),计算余弦相似度作为变化置信度分数,低相似度确认真实变化,高相似度排除假阳性。使用最后一层嵌入,因为语义差异在此层最为显著。

损失函数 / 训练策略

  • 完全零训练,无可学习参数
  • 时序一致性指标 TC = \(\frac{\mathbf{Y}_{\text{pred}}^{t0 \to t1} \cap \mathbf{Y}_{\text{pred}}^{t1 \to t0}}{\mathbf{Y}_{\text{pred}}^{t0 \to t1} \cup \mathbf{Y}_{\text{pred}}^{t1 \to t0}}\)
  • 提出 GeSCD 评估协议:在三个标准数据集 + ChangeVPR 数据集上进行全面跨域评估

实验关键数据

主实验

方法 VL-CMU-CD IoU TSUNAMI IoU ChangeSim IoU ChangeVPR IoU TC
CSCDNet (域内) 77.4 - - -
CSCDNet (跨域) - 5.6 25.5 极低 0.02
GeSCF 竞争力 大幅提升 大幅提升 最高 1.0

消融实验

组件 性能影响
Key vs Value facet Key facet 更清晰区分变化/不变化
中间层 vs 首/末层 中间层效果最优
固定阈值 vs 自适应阈值 自适应显著提升
无 SSM 假阳性增多

关键发现

  • GeSCF 在现有 SCD 数据集上平均提升 19.2%,在 ChangeVPR 上提升 30.0%
  • 完美的时序一致性 (TC = 1.0),因特征相关操作天然交换不变
  • 现有 SOTA 在跨域场景下性能崩溃,证明了泛化 SCD 研究的迫切性
  • SAM 中间层 key facet 对语义变化最敏感,同时对光照/季节变化最不敏感

亮点与洞察

  • 将 SAM 的内部副产品(facet 特征、类无关掩码、掩码嵌入)极致利用,零成本实现变化检测
  • 特征相关的交换不变性优雅地解决了时序一致性问题——无需额外约束即天然保证
  • 自适应阈值基于偏度的设计考虑了"变化"的相对性,非常符合直觉
  • GeSCD 基准和 ChangeVPR 数据集为领域提供了急需的泛化评估标准

局限与展望

  • 零样本方法在特定域内训练数据充分时可能不如监督方法精确
  • SAM 编码器的计算成本较高,实时应用可能受限
  • 对极端视角变化或完全不同场景内容(非对齐)的处理能力未充分验证
  • 可结合微调策略在零样本基础上进一步提升特定域性能

相关工作与启发

  • vs CSCDNet/CDResNet: 监督方法在特定数据集上优秀但跨域崩溃;GeSCF 牺牲部分域内精度换取全面泛化能力
  • vs SAM 在遥感 CD 中的应用: 遥感 CD 通常微调 SAM 适配器;GeSCF 是首个在自然场景 SCD 中零样本使用 SAM 的工作
  • vs 对称 SCD 架构: 现有对称设计依赖特定域的归纳偏见;GeSCF 的交换不变性是数学上保证的

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首个零样本 SCD,SAM 特征利用方式极具创意
  • 实验充分度: ⭐⭐⭐⭐⭐ — 提出完整基准、新数据集、新指标
  • 写作质量: ⭐⭐⭐⭐ — 问题动机有力,框架清晰
  • 实用价值: ⭐⭐⭐⭐⭐ — 零训练泛化方案,直接部署到任意场景

相关论文