ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data¶
会议: CVPR 2026
arXiv: 2512.02686
代码: 暂无
领域: 自动驾驶
关键词: 异常分割, OoD检测, 合成数据, 天气增强, 扩散模型, ControlNet
一句话总结¶
提出ClimaDrive数据生成框架和ClimaOoD基准数据集,通过语义引导的多天气场景生成+透视感知的异常物体放置,构建10K+训练集覆盖6种天气×93类异常,训练后四个SOTA方法平均AP提升3.25%。
研究背景与动机¶
自动驾驶中的异常(OoD)分割旨在检测训练分布外的未知物体(如掉落货物、动物、路障等),是安全关键能力。当前面临的核心瓶颈是数据稀缺:
- 现有数据集规模小、多样性差:
- LostAndFound:仅1种地形(城市)、9类异常物体
- Fishyscapes:1种地形、7类异常
- SMIYC (SegmentMeIfYouCan):4种地形、26类异常
- 天气覆盖几乎为零:现有数据集基本只有晴天场景,而恶劣天气下的OoD检测才是真正的安全盲区
- 真实采集代价高:异常事件本身罕见,遍历天气×场景×异常类型的组合在真实世界中不现实
合成数据是突破数据瓶颈的关键路径。但简单的copy-paste合成缺乏物理真实性,且无法生成逼真的天气效果。ClimaDrive利用扩散模型的生成能力,系统性地解决多样性和真实性的双重挑战。
方法详解¶
整体框架¶
ClimaDrive由两个核心模块组成,形成完整的数据生成pipeline:
- Multi-Scene Weather Generator:从干净语义图生成多天气驾驶场景图像
- AnomPlacer:在生成的场景中物理合理地放置异常物体
最终产出ClimaOoD数据集,包含训练集和经人工筛选的测试集。
关键设计¶
模块1:Multi-Scene Weather Generator
基于ControlNet的语义引导image-to-image生成:
- 输入:语义分割图(semantic map) + 场景描述文本prompt
- 控制条件:ControlNet以语义图作为空间结构约束,文本prompt指定天气和场景类型
- 输出:对应天气条件下的驾驶场景图像
支持6种天气条件:晴天(Clear)、雨天(Rain)、雾天(Fog)、雪天(Snow)、阴天(Overcast)、夜间(Night)。场景文本prompt中融合天气描述和场景类型(城市/郊区/高速等),引导生成多样化的背景。
模块2:AnomPlacer(异常物体放置)
这是方法的核心创新,解决"如何物理合理地在场景中放置异常物体":
步骤1 - 可行区域采样:在语义图的Drivable Region(可驾驶区域)中均匀采样64个候选位置,生成pseudo bounding boxes。
步骤2 - 透视先验调整:根据图像中的垂直位置 \(y_i\) 调整bbox大小:
距离越远(图像上方)物体越小,符合透视投影的物理规律。这避免了远处放置巨大物体或近处放置微小物体的不自然情况。
步骤3 - 检测与匹配:使用检测backbone对候选bbox预测置信度,通过匈牙利匹配(Hungarian Matching)选择最优放置位置,确保物体间不重叠且布局自然。
步骤4 - 扩散模型Inpainting:在选定位置用扩散模型(以异常物体类别为prompt)进行inpainting,生成与场景光照、风格一致的异常物体。
步骤5 - 掩码生成:使用Grounding-SAM对inpaint区域生成精确的异常物体分割mask,作为训练的GT标签。
损失函数 / 训练策略¶
ClimaDrive本身是数据生成框架,不涉及额外的损失设计。下游分割模型使用各自原有的训练损失:
- RbA (Residual-based Anomaly):基于残差的异常评分
- RPL (Robust Pixel-Level):像素级鲁棒训练
- Mask2Former:基于掩码的分割+异常分支
- DenseHybrid:密度估计+分类混合方法
训练策略:将ClimaOoD训练集与原有正常驾驶数据混合训练,异常区域标签来自Grounding-SAM生成的mask。
实验关键数据¶
主实验¶
四个SOTA方法在ClimaOoD训练后的提升:
| 方法 | AP (原始→+ClimaOoD) | AUROC (原始→+ClimaOoD) | 提升幅度 |
|---|---|---|---|
| RbA | 基线 → +ClimaOoD | 基线 → +ClimaOoD | AP↑, AUROC↑ |
| RPL | 基线 → +ClimaOoD | 基线 → +ClimaOoD | AP↑, AUROC↑ |
| Mask2Former | 基线 → +ClimaOoD | 基线 → +ClimaOoD | AP↑, AUROC↑ |
| DenseHybrid | 基线 → +ClimaOoD | 基线 → +ClimaOoD | AP↑, AUROC↑ |
| 平均提升 | — | — | AP +3.25%, AUROC +0.66% |
消融实验¶
| 消融条件 | AP变化 | 说明 |
|---|---|---|
| 仅清天数据(无天气增强) | 下降 | 天气多样性对泛化至关重要 |
| 无透视先验(固定bbox大小) | 下降 | 物体尺寸不合理导致模型学到错误模式 |
| 无匈牙利匹配(随机放置) | 轻微下降 | 物体重叠降低数据质量 |
| 仅copy-paste(无inpainting) | 明显下降 | 边界伪影被模型利用为捷径 |
| 减少异常类别(93→20) | 下降 | 异常多样性是关键 |
关键发现¶
- ClimaOoD数据集规模:10K+训练图像,覆盖6种天气 × 6种场景类型 × 93种异常物体类别,远超现有数据集
- 测试集质量:1200张经人工筛选的高质量测试图像
- 恶劣天气的挑战仍在:FPR95从晴天的7.8%升至恶劣天气的11.0%,说明天气条件下的OoD检测仍有巨大改善空间
- 通用性:ClimaOoD对四个不同架构的方法均有效,说明数据多样性的提升是方法无关的
亮点与洞察¶
- 系统性解决数据瓶颈:不是提出新模型,而是构建高质量数据集——这在当前"数据为王"的范式下更有持久价值
- 透视先验的简洁有效:\(h_i = H / y_i\) 这个简单公式就能显著提升放置物理合理性,体现了"简单但有效"的工程智慧
- 93类异常物体:覆盖范围从常见(锥桶、轮胎)到罕见(沙发、购物车),大幅提升OoD检测的泛化能力
- 方法无关的增益:四个不同范式的方法均获得提升,验证了"数据>模型"的洞察
局限性 / 可改进方向¶
- Inpainting质量依赖扩散模型:某些异常物体(如高反射物体)的生成质量可能不稳定,引入噪声标签
- Grounding-SAM的mask精度:自动生成的mask不如人工标注精确,边界区域可能存在错误
- 恶劣天气下FPR95仍高(11.0%):数据增强只是缓解而非解决天气鲁棒性问题,需要结合模型层面的改进
- 缺少3D信息:纯2D图像合成无法建模遮挡、阴影等3D一致性,生成的异常物体可能缺乏深度线索
- 测试集偏差:1200张人工筛选可能引入选择偏差,难以代表真实长尾分布
- ControlNet的语义图来源:依赖已有的语义分割GT,限制了数据生成的自动化程度
相关工作与启发¶
- LostAndFound / Fishyscapes / SMIYC:现有OoD分割基准 → ClimaOoD在规模和多样性上全面超越
- ControlNet:条件扩散生成 → 语义图控制场景结构是优雅的设计选择
- Grounding-SAM:开放词汇分割 → 巧妙用于自动生成异常物体mask标签
- 启发:这种"生成引擎+自动标注"的数据工厂范式可推广到其他数据稀缺的安全关键任务(如医学异常检测)
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 3.5 | 各技术模块非全新,但系统性组合和benchmark构建有价值 |
| 实用性 | 4.5 | 数据集可直接使用,四个SOTA均获益 |
| 实验充分度 | 4.0 | 四个方法+消融实验充分,但缺乏真实恶劣天气数据的验证 |
| 写作质量 | 3.5 | 结构清晰,但生成细节描述可更加详尽 |
| 综合 | 3.9 | 实用导向的强工作,数据集本身比方法更有持久贡献 |