Reliability in Semantic Segmentation: Can We Use Synthetic Data?¶
会议: ECCV 2024
arXiv: 2312.09231
代码: 有
领域: 自动驾驶
关键词: 语义分割, 合成数据, 可靠性评估, OOD检测, Stable Diffusion
一句话总结¶
首次系统地利用 Stable Diffusion 生成合成 OOD 数据来全面评估语义分割模型的可靠性,包括协变量偏移下的鲁棒性评估、OOD 物体检测评估和模型校准,并证明合成数据与真实 OOD 数据的评估结果高度相关。
研究背景与动机¶
在自动驾驶等安全关键应用中,评估感知模型对协变量偏移(covariate shift)的鲁棒性和检测 OOD 输入的能力至关重要。然而,真实 OOD 数据的收集和标注极其困难且成本高昂——极端天气(暴雪、大雾)、罕见条件(洪水、火灾)等场景难以系统性地采集。
现有鲁棒性评估主要依赖:(1) 真实偏移数据集如 ACDC(但覆盖有限);(2) 合成扰动如添加噪声/模糊(但与真实偏移的鲁棒性不相关)。Taori et al. 曾批评合成鲁棒性基准与真实偏移脱节,但本文指出,随着生成模型的快速进步,现在可以生成足够逼真的合成数据来进行有意义的虚拟评估。
本文的核心问题是:合成数据能否替代真实 OOD 数据来评估语义分割模型的可靠性?
方法详解¶
整体框架¶
框架包含两条流水线,均基于预训练的 Stable Diffusion 1.5:
- 协变量偏移生成:在 Cityscapes 上微调 ControlNet,利用语义 mask 控制生成,通过零样本文本提示生成不同域(夜晚、雨、雪、雾、印度)的驾驶场景图像。
- OOD 物体修补:利用 SD 的 inpainting 能力,在 Cityscapes 图像中零样本地插入 42 类不属于 Cityscapes 的物体(如婴儿、长凳、广告牌等),并用 Grounded SAM 提取插入物体的 mask。
关键设计¶
协变量偏移数据生成:
- 在 Cityscapes 训练集上微调 ControlNet(仅 2100 步),以语义 mask 为条件,CLIP-interrogator 提取的 caption 为文本输入。
- 推理时,将 OOD 域描述拼接到 caption 后面(如 [caption, in night]),使用 Cityscapes 验证集的语义 mask 作为条件,零样本生成目标域图像。
- 生成的图像自动继承 mask 标注,无需人工标注。
OOD 物体修补流水线: - 随机选择插入位置和大小,从图像中裁剪并放大到 512×512。 - 使用 SD inpainting 以物体名称为提示词生成物体,采用内外双区域策略保持背景一致性。 - 用 Grounded SAM 提取物体 mask,再通过噪声+去噪精炼步骤消除拼接痕迹。 - 构建了两个集合:23,040 张全自动生成的和 656 张人工精选的。
评估协议: - 收集 40 个仅在 Cityscapes 上训练的公开语义分割模型,覆盖 ConvNet 到 Transformer 的多种架构和规模。 - 用 Pearson 相关系数(PCC)衡量合成评估分数与真实 OOD 评估分数的相关性。
损失函数 / 训练策略¶
本文不涉及分割模型的训练,而是评估已有模型。ControlNet 的训练使用标准重建损失。校准部分使用温度缩放(temperature scaling)——一种简单高效的后处理校准方法,在合成 OOD 数据上优化温度参数。
实验关键数据¶
主实验(表格)¶
协变量偏移下合成评估与真实评估的 Pearson 相关系数:
| 生成方法 | 需OOD知识? | 需OOD数据? | Night | Rain | Snow | Fog | India |
|---|---|---|---|---|---|---|---|
| GAN-based TSIT | 否 | 是 | 0.83 | 0.84 | 0.81 | - | - |
| Physics-based Fog Sim | 是 | 否 | - | - | - | 0.82 | - |
| Ours (SD1.5) | 否 | 否 | 0.85 | 0.86 | 0.85 | 0.77 | 0.71 |
| Ours (SDXL) | 否 | 否 | 0.84 | 0.90 | 0.82 | 0.89 | 0.93 |
OOD 物体检测改进实验(在 SMIYC RoadAnomaly21 上):
| 方法 | AUROC↑ | AUPR↑ | FPR95↓ |
|---|---|---|---|
| RbA (Swin-B) baseline | 95.6 | 78.4 | 11.8 |
| + COCO 数据 | 97.8 | 85.3 | 8.5 |
| + Ours (curated) | 97.2 | 84.9 | 8.1 |
| + Ours (all) | 97.3 | 84.8 | 8.2 |
| RbA (Swin-L) baseline | 96.4 | 79.6 | 15.0 |
| + COCO 数据 | 98.2 | 88.7 | 8.2 |
| + Ours (curated) | 97.2 | 88.0 | 7.9 |
| + Ours (all) | 98.1 | 88.6 | 8.3 |
消融实验(表格)¶
校准实验——合成数据校准的成功率(ECE 改善的模型比例):
| OOD 域 | 域间距离 | 合成数据校准成功率 |
|---|---|---|
| India | 小 | 72.5% |
| Fog | 中 | >90% |
| Rain | 中 | >90% |
| Snow | 大 | >90% |
| Night | 大 | >90% |
关键发现:约 500 张合成图像即可获得稳定可靠的鲁棒性评估结果。
关键发现¶
- 域差距越大,合成数据优势越明显:在 Fog/India 等小偏移域,Cityscapes 验证集本身就能较好预测 OOD 性能;但在 Night/Snow 等大偏移域,合成数据的 PCC 远超 Cityscapes(Night: PCC_Syn >> PCC_CS 2倍以上)。
- Cityscapes mIoU 不能预测夜间性能:高 Cityscapes mIoU 并不意味着高夜间鲁棒性,但合成夜间 mIoU 与真实夜间 mIoU 强相关。
- OOD 检测的合成-真实相关性很高:精选合成集在多种异常指标上 PCC 持续约 0.8,即使全自动生成集也可接受。
- 合成数据可有效训练 OOD 检测器:用合成数据训练的 RbA 模型性能与使用真实 COCO 数据增强的版本相当。
- 模型排名的架构趋势一致:Transformer/ConvNeXt backbone 在合成和真实 OOD 数据上都展现出更强的鲁棒性。
亮点与洞察¶
- 零样本生成范式:只需在域内数据上微调 ControlNet,之后通过文本提示零样本生成任意 OOD 域的测试数据,扩展性极强。
- 实用价值巨大:对于洪水、火灾等极端场景,几乎不可能系统性收集真实数据,但通过文本提示即可生成。
- 评估+训练双重价值:合成数据不仅能评估模型鲁棒性(评估侧),还能用于校准和 OOD 检测训练(训练侧)。
- 对数据质量要求不同:评估需要高质量合成数据(精选集更优),但训练 OOD 检测时不需要——甚至有瑕疵的合成数据也有效。
- 该合成数据已被纳入官方 BRAVO benchmark。
局限与展望¶
- SD1.5 在 Fog 和 India 域上相关性相对较低(0.77 和 0.71),更强的生成模型(如 SDXL)可显著改善但计算更昂贵。
- 温度缩放校准并非总能保证 ECE 改善,即使使用真实数据也可能如此。
- OOD 物体的修补质量仍有改进空间,部分生成存在颜色饱和度差异或不完整物体。
- 本文仅关注语义分割;是否能推广到目标检测、深度估计等其他任务有待验证。
- 生成数据的多样性受限于文本提示的设计,更系统化的提示策略值得探索。
相关工作与启发¶
- 与 RELIS(Jorge et al.)的工作呼应但更深入:RELIS 将所有天气混在一起分析,本文分域分析后发现小域差距和大域差距有本质不同。
- ControlNet 的 mask-to-image 生成能力使语义标注可以免费获得,这一思路可应用于更多需要域外标注数据的场景。
- 合成数据评估可作为完整验证流水线的第一步,先过滤掉不鲁棒的模型原型,降低总体运营成本。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统性地用生成模型评估分割可靠性
- 技术质量: ⭐⭐⭐⭐ — 40个模型的大规模评估,统计分析严谨
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖鲁棒性、OOD检测、校准三方面
- 实用性: ⭐⭐⭐⭐⭐ — 直接可落地到安全关键系统验证流程
- 总体推荐: ⭐⭐⭐⭐
相关论文¶
- [CVPR 2026] ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data
- [ECCV 2024] Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather
- [ECCV 2024] RoofDiffusion: Constructing Roofs from Severely Corrupted Point Data via Diffusion
- [ECCV 2024] ItTakesTwo: Leveraging Peer Representations for Semi-supervised LiDAR Semantic Segmentation
- [ICCV 2025] Unraveling the Effects of Synthetic Data on End-to-End Autonomous Driving