DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding¶
会议: NeurIPS 2025
arXiv: 2511.02495
代码: https://kaggle.com/datasets/detectiumfire
领域: 数据集 / 多模态
关键词: 火灾检测, 多模态数据集, 合成数据, RLHF, 视觉语言模型
一句话总结¶
DetectiumFire 构建了最大的多模态火灾理解数据集——14.5K 真实图像 + 2.5K 视频 + 8K 合成图像 + 12K RLHF 偏好对,低重复率(0.03 PHash vs D-Fire 0.15),配合 4 级严重性分类标准和详细场景描述,微调 YOLOv11m 达 mAP 43.74,微调 LLaMA-3.2-11B 火灾严重性分类 83.84%。
研究背景与动机¶
- 领域现状:火灾安全是全球重大问题,但现有火灾数据集规模小(D-Fire 仅 5.8K 图像)且高重复率(CNN 重复率 0.55)。多模态模型(CLIP, VLM)缺乏火灾领域训练数据。
- 现有痛点:(a) 现有数据集重复率高,模型在重复样本上过拟合而非学习泛化特征;(b) 缺乏语义标注(火灾什么在燃烧?环境如何?严重程度?)——仅有检测框;(c) 合成数据质量差(FLAME_SD mAP 仅 2.10)。
- 核心矛盾:火灾场景需要上下文推理(小蜡烛 vs 蔓延火焰),但现有数据集不支持这种理解——只有检测不够,需要场景语义+严重性评估。
- 本文要解决什么? 构建大规模、低重复、多模态的火灾理解数据集,支持检测+描述+严重性评估。
- 切入角度:结合真实采集 + SFT/RLHF 微调的 Stable Diffusion 合成 + GPT-4o 标注语义描述 + 4 级严重性分类体系。
- 核心 idea 一句话:低重复真实图像 + SFT/RLHF 微调 SD 合成 + GPT-4o 语义标注 + 4 级严重性分类 = 多模态火灾理解基准。
方法详解¶
整体框架¶
数据收集: 多源采集 14.5K 图像 + 2.5K 视频 → 去重(PHash+CNN imagededup)→ 标注: Roboflow 检测框 + GPT-4o 生成 75 词描述(燃烧物+环境+严重性)→ 合成数据: SFT 微调 SD v1.5/v2/XL-1.0 + RLHF (Diffusion-DPO) → 质量控制: CLAP 嵌入余弦距离过滤 + 消防专家验证
关键设计¶
- 4 级严重性分类体系:
- 做什么:为每张火灾图像标注严重性等级
- 核心思路:No Risk(无风险)→ Low Risk(小火可控)→ Medium Risk(中等蔓延)→ High Risk(大规模不可控)。每级有具体视觉特征描述
-
设计动机:仅有"有火/无火"不够——消防决策需要评估严重程度
-
SFT + RLHF 合成数据:
- 做什么:用微调的 Stable Diffusion 生成高质量火灾图像
- 核心思路:SFT——LoRA 微调 SD v1.5/v2/XL-1.0 4000 步。RLHF——Diffusion-DPO 管线,12K 人类偏好对(每 prompt k=2-9 次成对比较)
-
设计动机:真实火灾数据稀缺且难以安全采集。SFT 生成的图像质量高于 baseline SD(Elo 评分显著提升)
-
GPT-4o 语义标注流水线:
- 做什么:为每张图生成结构化描述
- 核心思路:75 词限制,聚焦三要素:燃烧物体(如建筑/森林/车辆)、环境(室内/室外/时间)、严重程度。人工精炼纠错
- 设计动机:VLM 微调需要高质量 caption——简单标签不够,需详细场景描述
损失函数 / 训练策略¶
- 检测: YOLOv11m 标准训练
- VLM: LLaMA-3.2-11B 指令微调
- 合成图结合真实图训练效果更好
实验关键数据¶
主实验¶
| 任务 | 方法 | 指标 | 值 |
|---|---|---|---|
| 检测 | YOLOv11m (DetectiumFire) | mAP | 43.74±0.64 |
| 跨域检测 | Train DetectiumFire → Test D-Fire | mAP | 40.32 |
| 跨域检测 | Train D-Fire → Test DetectiumFire | mAP | 24.88(差) |
| 合成增强 | 真实+合成 | mAP | 44.52(+0.78) |
| VLM 严重性 | LLaMA-3.2-11B 微调 | 准确率 | 83.84% |
| VLM 环境 | LLaMA-3.2-11B 微调 | 准确率 | 89.39% |
| VLM 燃烧物 | LLaMA-3.2-11B 微调 | 准确率 | 87.37% |
| VLM baseline | LLaMA-3.2-11B 未微调 | 严重性 | 56.06%(+27.78%) |
消融实验¶
| 数据来源 | mAP |
|---|---|
| 真实仅 | 43.74 |
| 合成仅 (FLAME_SD) | 2.10 |
| 合成仅 (SFT) | 33.50 |
| 真实 + SFT 合成 | 44.52 |
关键发现¶
- 数据集质量(低重复)极其重要——D-Fire 训练后迁移到 DetectiumFire 仅 24.88 mAP(vs 反向 40.32),证明 DetectiumFire 更难更多样
- SFT 合成比其他合成方法好一个数量级(33.50 vs 2.10 mAP)——LoRA 微调有效
- RLHF 合成略低于 SFT——可能降低了多样性(偏好对偏向常见场景)
- 语义描述使 VLM 微调效果显著(严重性 +27.78%)——上下文推理需要详细标注
- 合成数据是有效的数据增强(+0.78 mAP),但提升有限
亮点与洞察¶
- 4 级严重性分类填补了火灾 AI 从检测到评估的空白——真正实用的系统需要严重性判断
- 低重复率(0.03 vs 0.15)说明数据去重对基准质量至关重要
- 跨域不对称性(DetectiumFire→D-Fire 40.32 vs D-Fire→DetectiumFire 24.88)证明 DetectiumFire 的多样性和困难度更高
局限性 / 可改进方向¶
- 合成数据提升有限(+0.78 mAP),可能需要更先进的生成策略(如 ControlNet 条件生成)
- 语言偏差(主要英文+中文搜索)——可能遗漏非英文标注的火灾场景
- 缺乏人类存在、火灾进展(时序)等更丰富的场景标注
- 4 级严重性评估仍较粗——10 级或连续评估可能更适合专业消防应用
- RLHF 合成反而比 SFT 差——偏好对可能偏向常见场景降低多样性
相关工作与启发¶
- vs D-Fire: 规模小、重复率高、无语义标注;DetectiumFire 全面超越
- vs FLAME_SD: 纯合成数据集,质量极低(mAP 2.10);DetectiumFire 的混合策略更有效
- 应用价值: 消防机器人、无人机巡检、智能监控等场景都需要火灾严重性评估能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模多模态火灾理解数据集 + 严重性分类
- 实验充分度: ⭐⭐⭐⭐ 检测+VLM+合成+跨域多维评测
- 写作质量: ⭐⭐⭐⭐ 数据集构建流程详细
- 价值: ⭐⭐⭐⭐ 为火灾安全 AI 提供了急需的数据基础设施