Reliability in Semantic Segmentation: Can We Use Synthetic Data?¶

会议: ECCV 2024
arXiv: 2312.09231
代码: 有
领域: 自动驾驶
关键词: 语义分割, 合成数据, 可靠性评估, OOD检测, Stable Diffusion

一句话总结¶

首次系统地利用 Stable Diffusion 生成合成 OOD 数据来全面评估语义分割模型的可靠性，包括协变量偏移下的鲁棒性评估、OOD 物体检测评估和模型校准，并证明合成数据与真实 OOD 数据的评估结果高度相关。

研究背景与动机¶

在自动驾驶等安全关键应用中，评估感知模型对协变量偏移（covariate shift）的鲁棒性和检测 OOD 输入的能力至关重要。然而，真实 OOD 数据的收集和标注极其困难且成本高昂——极端天气（暴雪、大雾）、罕见条件（洪水、火灾）等场景难以系统性地采集。

现有鲁棒性评估主要依赖：(1) 真实偏移数据集如 ACDC（但覆盖有限）；(2) 合成扰动如添加噪声/模糊（但与真实偏移的鲁棒性不相关）。Taori et al. 曾批评合成鲁棒性基准与真实偏移脱节，但本文指出，随着生成模型的快速进步，现在可以生成足够逼真的合成数据来进行有意义的虚拟评估。

本文的核心问题是：合成数据能否替代真实 OOD 数据来评估语义分割模型的可靠性？

方法详解¶

整体框架¶

框架包含两条流水线，均基于预训练的 Stable Diffusion 1.5：

协变量偏移生成：在 Cityscapes 上微调 ControlNet，利用语义 mask 控制生成，通过零样本文本提示生成不同域（夜晚、雨、雪、雾、印度）的驾驶场景图像。
OOD 物体修补：利用 SD 的 inpainting 能力，在 Cityscapes 图像中零样本地插入 42 类不属于 Cityscapes 的物体（如婴儿、长凳、广告牌等），并用 Grounded SAM 提取插入物体的 mask。

关键设计¶

协变量偏移数据生成： - 在 Cityscapes 训练集上微调 ControlNet（仅 2100 步），以语义 mask 为条件，CLIP-interrogator 提取的 caption 为文本输入。 - 推理时，将 OOD 域描述拼接到 caption 后面（如 [caption, in night]），使用 Cityscapes 验证集的语义 mask 作为条件，零样本生成目标域图像。 - 生成的图像自动继承 mask 标注，无需人工标注。

OOD 物体修补流水线： - 随机选择插入位置和大小，从图像中裁剪并放大到 512×512。 - 使用 SD inpainting 以物体名称为提示词生成物体，采用内外双区域策略保持背景一致性。 - 用 Grounded SAM 提取物体 mask，再通过噪声+去噪精炼步骤消除拼接痕迹。 - 构建了两个集合：23,040 张全自动生成的和 656 张人工精选的。

评估协议： - 收集 40 个仅在 Cityscapes 上训练的公开语义分割模型，覆盖 ConvNet 到 Transformer 的多种架构和规模。 - 用 Pearson 相关系数（PCC）衡量合成评估分数与真实 OOD 评估分数的相关性。

损失函数 / 训练策略¶

本文不涉及分割模型的训练，而是评估已有模型。ControlNet 的训练使用标准重建损失。校准部分使用温度缩放（temperature scaling）——一种简单高效的后处理校准方法，在合成 OOD 数据上优化温度参数。

实验关键数据¶

主实验（表格）¶

协变量偏移下合成评估与真实评估的 Pearson 相关系数：

生成方法	需OOD知识?	需OOD数据?	Night	Rain	Snow	Fog	India
GAN-based TSIT	否	是	0.83	0.84	0.81	-	-
Physics-based Fog Sim	是	否	-	-	-	0.82	-
Ours (SD1.5)	否	否	0.85	0.86	0.85	0.77	0.71
Ours (SDXL)	否	否	0.84	0.90	0.82	0.89	0.93

OOD 物体检测改进实验（在 SMIYC RoadAnomaly21 上）：

方法	AUROC↑	AUPR↑	FPR95↓
RbA (Swin-B) baseline	95.6	78.4	11.8
+ COCO 数据	97.8	85.3	8.5
+ Ours (curated)	97.2	84.9	8.1
+ Ours (all)	97.3	84.8	8.2
RbA (Swin-L) baseline	96.4	79.6	15.0
+ COCO 数据	98.2	88.7	8.2
+ Ours (curated)	97.2	88.0	7.9
+ Ours (all)	98.1	88.6	8.3

消融实验（表格）¶

校准实验——合成数据校准的成功率（ECE 改善的模型比例）：

OOD 域	域间距离	合成数据校准成功率
India	小	72.5%
Fog	中	>90%
Rain	中	>90%
Snow	大	>90%
Night	大	>90%

关键发现：约 500 张合成图像即可获得稳定可靠的鲁棒性评估结果。

关键发现¶

域差距越大，合成数据优势越明显：在 Fog/India 等小偏移域，Cityscapes 验证集本身就能较好预测 OOD 性能；但在 Night/Snow 等大偏移域，合成数据的 PCC 远超 Cityscapes（Night: PCC_Syn >> PCC_CS 2倍以上）。
Cityscapes mIoU 不能预测夜间性能：高 Cityscapes mIoU 并不意味着高夜间鲁棒性，但合成夜间 mIoU 与真实夜间 mIoU 强相关。
OOD 检测的合成-真实相关性很高：精选合成集在多种异常指标上 PCC 持续约 0.8，即使全自动生成集也可接受。
合成数据可有效训练 OOD 检测器：用合成数据训练的 RbA 模型性能与使用真实 COCO 数据增强的版本相当。
模型排名的架构趋势一致：Transformer/ConvNeXt backbone 在合成和真实 OOD 数据上都展现出更强的鲁棒性。

亮点与洞察¶

零样本生成范式：只需在域内数据上微调 ControlNet，之后通过文本提示零样本生成任意 OOD 域的测试数据，扩展性极强。
实用价值巨大：对于洪水、火灾等极端场景，几乎不可能系统性收集真实数据，但通过文本提示即可生成。
评估+训练双重价值：合成数据不仅能评估模型鲁棒性（评估侧），还能用于校准和 OOD 检测训练（训练侧）。
对数据质量要求不同：评估需要高质量合成数据（精选集更优），但训练 OOD 检测时不需要——甚至有瑕疵的合成数据也有效。
该合成数据已被纳入官方 BRAVO benchmark。

局限与展望¶

SD1.5 在 Fog 和 India 域上相关性相对较低（0.77 和 0.71），更强的生成模型（如 SDXL）可显著改善但计算更昂贵。
温度缩放校准并非总能保证 ECE 改善，即使使用真实数据也可能如此。
OOD 物体的修补质量仍有改进空间，部分生成存在颜色饱和度差异或不完整物体。
本文仅关注语义分割；是否能推广到目标检测、深度估计等其他任务有待验证。
生成数据的多样性受限于文本提示的设计，更系统化的提示策略值得探索。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地用生成模型评估分割可靠性
技术质量: ⭐⭐⭐⭐ — 40个模型的大规模评估，统计分析严谨
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖鲁棒性、OOD检测、校准三方面
实用性: ⭐⭐⭐⭐⭐ — 直接可落地到安全关键系统验证流程
总体推荐: ⭐⭐⭐⭐