跳转至

Reliability in Semantic Segmentation: Can We Use Synthetic Data?

会议: ECCV 2024
arXiv: 2312.09231
代码: 有
领域: 自动驾驶
关键词: 语义分割, 合成数据, 可靠性评估, OOD检测, Stable Diffusion

一句话总结

首次系统地利用 Stable Diffusion 生成合成 OOD 数据来全面评估语义分割模型的可靠性,包括协变量偏移下的鲁棒性评估、OOD 物体检测评估和模型校准,并证明合成数据与真实 OOD 数据的评估结果高度相关。

研究背景与动机

在自动驾驶等安全关键应用中,评估感知模型对协变量偏移(covariate shift)的鲁棒性和检测 OOD 输入的能力至关重要。然而,真实 OOD 数据的收集和标注极其困难且成本高昂——极端天气(暴雪、大雾)、罕见条件(洪水、火灾)等场景难以系统性地采集。

现有鲁棒性评估主要依赖:(1) 真实偏移数据集如 ACDC(但覆盖有限);(2) 合成扰动如添加噪声/模糊(但与真实偏移的鲁棒性不相关)。Taori et al. 曾批评合成鲁棒性基准与真实偏移脱节,但本文指出,随着生成模型的快速进步,现在可以生成足够逼真的合成数据来进行有意义的虚拟评估。

本文的核心问题是:合成数据能否替代真实 OOD 数据来评估语义分割模型的可靠性?

方法详解

整体框架

框架包含两条流水线,均基于预训练的 Stable Diffusion 1.5:

  1. 协变量偏移生成:在 Cityscapes 上微调 ControlNet,利用语义 mask 控制生成,通过零样本文本提示生成不同域(夜晚、雨、雪、雾、印度)的驾驶场景图像。
  2. OOD 物体修补:利用 SD 的 inpainting 能力,在 Cityscapes 图像中零样本地插入 42 类不属于 Cityscapes 的物体(如婴儿、长凳、广告牌等),并用 Grounded SAM 提取插入物体的 mask。

关键设计

协变量偏移数据生成: - 在 Cityscapes 训练集上微调 ControlNet(仅 2100 步),以语义 mask 为条件,CLIP-interrogator 提取的 caption 为文本输入。 - 推理时,将 OOD 域描述拼接到 caption 后面(如 [caption, in night]),使用 Cityscapes 验证集的语义 mask 作为条件,零样本生成目标域图像。 - 生成的图像自动继承 mask 标注,无需人工标注。

OOD 物体修补流水线: - 随机选择插入位置和大小,从图像中裁剪并放大到 512×512。 - 使用 SD inpainting 以物体名称为提示词生成物体,采用内外双区域策略保持背景一致性。 - 用 Grounded SAM 提取物体 mask,再通过噪声+去噪精炼步骤消除拼接痕迹。 - 构建了两个集合:23,040 张全自动生成的和 656 张人工精选的。

评估协议: - 收集 40 个仅在 Cityscapes 上训练的公开语义分割模型,覆盖 ConvNet 到 Transformer 的多种架构和规模。 - 用 Pearson 相关系数(PCC)衡量合成评估分数与真实 OOD 评估分数的相关性。

损失函数 / 训练策略

本文不涉及分割模型的训练,而是评估已有模型。ControlNet 的训练使用标准重建损失。校准部分使用温度缩放(temperature scaling)——一种简单高效的后处理校准方法,在合成 OOD 数据上优化温度参数。

实验关键数据

主实验(表格)

协变量偏移下合成评估与真实评估的 Pearson 相关系数:

生成方法 需OOD知识? 需OOD数据? Night Rain Snow Fog India
GAN-based TSIT 0.83 0.84 0.81 - -
Physics-based Fog Sim - - - 0.82 -
Ours (SD1.5) 0.85 0.86 0.85 0.77 0.71
Ours (SDXL) 0.84 0.90 0.82 0.89 0.93

OOD 物体检测改进实验(在 SMIYC RoadAnomaly21 上):

方法 AUROC↑ AUPR↑ FPR95↓
RbA (Swin-B) baseline 95.6 78.4 11.8
+ COCO 数据 97.8 85.3 8.5
+ Ours (curated) 97.2 84.9 8.1
+ Ours (all) 97.3 84.8 8.2
RbA (Swin-L) baseline 96.4 79.6 15.0
+ COCO 数据 98.2 88.7 8.2
+ Ours (curated) 97.2 88.0 7.9
+ Ours (all) 98.1 88.6 8.3

消融实验(表格)

校准实验——合成数据校准的成功率(ECE 改善的模型比例):

OOD 域 域间距离 合成数据校准成功率
India 72.5%
Fog >90%
Rain >90%
Snow >90%
Night >90%

关键发现:约 500 张合成图像即可获得稳定可靠的鲁棒性评估结果。

关键发现

  1. 域差距越大,合成数据优势越明显:在 Fog/India 等小偏移域,Cityscapes 验证集本身就能较好预测 OOD 性能;但在 Night/Snow 等大偏移域,合成数据的 PCC 远超 Cityscapes(Night: PCC_Syn >> PCC_CS 2倍以上)。
  2. Cityscapes mIoU 不能预测夜间性能:高 Cityscapes mIoU 并不意味着高夜间鲁棒性,但合成夜间 mIoU 与真实夜间 mIoU 强相关。
  3. OOD 检测的合成-真实相关性很高:精选合成集在多种异常指标上 PCC 持续约 0.8,即使全自动生成集也可接受。
  4. 合成数据可有效训练 OOD 检测器:用合成数据训练的 RbA 模型性能与使用真实 COCO 数据增强的版本相当。
  5. 模型排名的架构趋势一致:Transformer/ConvNeXt backbone 在合成和真实 OOD 数据上都展现出更强的鲁棒性。

亮点与洞察

  • 零样本生成范式:只需在域内数据上微调 ControlNet,之后通过文本提示零样本生成任意 OOD 域的测试数据,扩展性极强。
  • 实用价值巨大:对于洪水、火灾等极端场景,几乎不可能系统性收集真实数据,但通过文本提示即可生成。
  • 评估+训练双重价值:合成数据不仅能评估模型鲁棒性(评估侧),还能用于校准和 OOD 检测训练(训练侧)。
  • 对数据质量要求不同:评估需要高质量合成数据(精选集更优),但训练 OOD 检测时不需要——甚至有瑕疵的合成数据也有效。
  • 该合成数据已被纳入官方 BRAVO benchmark。

局限与展望

  • SD1.5 在 Fog 和 India 域上相关性相对较低(0.77 和 0.71),更强的生成模型(如 SDXL)可显著改善但计算更昂贵。
  • 温度缩放校准并非总能保证 ECE 改善,即使使用真实数据也可能如此。
  • OOD 物体的修补质量仍有改进空间,部分生成存在颜色饱和度差异或不完整物体。
  • 本文仅关注语义分割;是否能推广到目标检测、深度估计等其他任务有待验证。
  • 生成数据的多样性受限于文本提示的设计,更系统化的提示策略值得探索。

相关工作与启发

  • 与 RELIS(Jorge et al.)的工作呼应但更深入:RELIS 将所有天气混在一起分析,本文分域分析后发现小域差距和大域差距有本质不同。
  • ControlNet 的 mask-to-image 生成能力使语义标注可以免费获得,这一思路可应用于更多需要域外标注数据的场景。
  • 合成数据评估可作为完整验证流水线的第一步,先过滤掉不鲁棒的模型原型,降低总体运营成本。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统性地用生成模型评估分割可靠性
  • 技术质量: ⭐⭐⭐⭐ — 40个模型的大规模评估,统计分析严谨
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖鲁棒性、OOD检测、校准三方面
  • 实用性: ⭐⭐⭐⭐⭐ — 直接可落地到安全关键系统验证流程
  • 总体推荐: ⭐⭐⭐⭐

相关论文