Towards Generalizable Scene Change Detection¶

会议: CVPR 2025
arXiv: 2409.06214
代码: 有（论文中提及）
领域: 图像分割 / 变化检测
关键词: 场景变化检测, 零样本, SAM, 泛化能力, 时序一致性

一句话总结¶

提出首个零样本场景变化检测框架 GeSCF，利用 SAM 内部特征实现跨域泛化且时序一致的变化掩码生成，同时定义了泛化 SCD 基准。

研究背景与动机¶

场景变化检测 (SCD) 在视觉监控、异常检测、自主驾驶等领域至关重要，但现有 SOTA 方法严重依赖训练数据集——在未见环境中性能从 77.6% 骤降至 8.0%，不同时序条件下降至 4.6%。核心问题有二：(1) 泛化性差：现有方法在特定数据集上训练和评估，无法适应新场景；(2) 时序不一致：输入顺序反转时产生不同的变化掩码。在 SAM 等"anything"模型的零样本泛化能力日益强大的时代，如何让 SCD 也具备 "anything" 能力成为关键挑战。然而 SAM 设计为单图交互式分割，直接用于双图变化检测存在本质差异。本文通过初始伪掩码生成和几何-语义匹配两个创新步骤，巧妙弥合了这一鸿沟。

方法详解¶

整体框架¶

GeSCF 零训练管线包含两个主要步骤：(1) 初始伪掩码生成——截获 SAM 编码器中间层的 facet 特征，计算双时间图像的多头特征相关性获取相似度图，通过自适应阈值函数转化为二值伪掩码；(2) 几何-语义掩码匹配——利用 SAM 的类无关掩码提案进行几何交叉匹配 (GIM)，再通过掩码嵌入的语义相似度匹配 (SSM) 精化最终变化掩码。

关键设计¶

多头特征相关性 + 自适应阈值：截获 SAM ViT 编码器中间层的 key facet 特征 \(\mathbf{F}_{l,n}\)，计算双时间图像的交换特征相关性 \(\bar{\mathbf{S}}_{l,n}^{t_0 \leftrightarrow t_1} = \mathbf{F}_{l,n}^{t_0} \cdot (\mathbf{F}_{l,n}^{t_1})^\top\)。该操作天然交换不变（保证时序一致性），聚合多头后得到相似度图。关键创新是基于偏度的自适应阈值 \(\mathbf{F}(\gamma) = b_\gamma + c \cdot \text{sign}(\gamma) \cdot s_\gamma \cdot \gamma\)，根据相似度分布的形态动态调整阈值，解决了固定阈值无法适应不同场景的问题。
几何交叉匹配 (GIM)：计算每个 SAM 掩码与伪掩码的交叉比 \(\alpha\)，保留超过阈值 \(\alpha_t\) 的掩码，将像素级分析提升到物体级变化检测。对两个时间步的图像分别处理，保持交换不变性。
语义相似度匹配 (SSM)：GIM 可能包含因伪掩码噪声导致的未变化区域。通过提取双时间掩码嵌入 \(\mathcal{M}_{l,o}^{t_0}\) 和 \(\mathcal{M}_{l,o}^{t_1}\)，计算余弦相似度作为变化置信度分数，低相似度确认真实变化，高相似度排除假阳性。使用最后一层嵌入，因为语义差异在此层最为显著。

损失函数 / 训练策略¶

完全零训练，无可学习参数
时序一致性指标 TC = \(\frac{\mathbf{Y}_{\text{pred}}^{t0 \to t1} \cap \mathbf{Y}_{\text{pred}}^{t1 \to t0}}{\mathbf{Y}_{\text{pred}}^{t0 \to t1} \cup \mathbf{Y}_{\text{pred}}^{t1 \to t0}}\)
提出 GeSCD 评估协议：在三个标准数据集 + ChangeVPR 数据集上进行全面跨域评估

实验关键数据¶

主实验¶

方法	VL-CMU-CD IoU	TSUNAMI IoU	ChangeSim IoU	ChangeVPR IoU	TC
CSCDNet (域内)	77.4	-	-	-	低
CSCDNet (跨域)	-	5.6	25.5	极低	0.02
GeSCF	竞争力	大幅提升	大幅提升	最高	1.0

消融实验¶

组件	性能影响
Key vs Value facet	Key facet 更清晰区分变化/不变化
中间层 vs 首/末层	中间层效果最优
固定阈值 vs 自适应阈值	自适应显著提升
无 SSM	假阳性增多

关键发现¶

GeSCF 在现有 SCD 数据集上平均提升 19.2%，在 ChangeVPR 上提升 30.0%
完美的时序一致性 (TC = 1.0)，因特征相关操作天然交换不变
现有 SOTA 在跨域场景下性能崩溃，证明了泛化 SCD 研究的迫切性
SAM 中间层 key facet 对语义变化最敏感，同时对光照/季节变化最不敏感

亮点与洞察¶

将 SAM 的内部副产品（facet 特征、类无关掩码、掩码嵌入）极致利用，零成本实现变化检测
特征相关的交换不变性优雅地解决了时序一致性问题——无需额外约束即天然保证
自适应阈值基于偏度的设计考虑了"变化"的相对性，非常符合直觉
GeSCD 基准和 ChangeVPR 数据集为领域提供了急需的泛化评估标准

局限与展望¶

零样本方法在特定域内训练数据充分时可能不如监督方法精确
SAM 编码器的计算成本较高，实时应用可能受限
对极端视角变化或完全不同场景内容（非对齐）的处理能力未充分验证
可结合微调策略在零样本基础上进一步提升特定域性能

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个零样本 SCD，SAM 特征利用方式极具创意
实验充分度: ⭐⭐⭐⭐⭐ — 提出完整基准、新数据集、新指标
写作质量: ⭐⭐⭐⭐ — 问题动机有力，框架清晰
实用价值: ⭐⭐⭐⭐⭐ — 零训练泛化方案，直接部署到任意场景