DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding¶

会议: NeurIPS 2025
arXiv: 2511.02495
代码: https://kaggle.com/datasets/detectiumfire
领域: 数据集 / 多模态
关键词: 火灾检测, 多模态数据集, 合成数据, RLHF, 视觉语言模型

一句话总结¶

DetectiumFire 构建了最大的多模态火灾理解数据集——14.5K 真实图像 + 2.5K 视频 + 8K 合成图像 + 12K RLHF 偏好对，低重复率（0.03 PHash vs D-Fire 0.15），配合 4 级严重性分类标准和详细场景描述，微调 YOLOv11m 达 mAP 43.74，微调 LLaMA-3.2-11B 火灾严重性分类 83.84%。

研究背景与动机¶

领域现状：火灾安全是全球重大问题，但现有火灾数据集规模小（D-Fire 仅 5.8K 图像）且高重复率（CNN 重复率 0.55）。多模态模型（CLIP, VLM）缺乏火灾领域训练数据。
现有痛点：(a) 现有数据集重复率高，模型在重复样本上过拟合而非学习泛化特征；(b) 缺乏语义标注（火灾什么在燃烧？环境如何？严重程度？）——仅有检测框；(c) 合成数据质量差（FLAME_SD mAP 仅 2.10）。
核心矛盾：火灾场景需要上下文推理（小蜡烛 vs 蔓延火焰），但现有数据集不支持这种理解——只有检测不够，需要场景语义+严重性评估。
本文要解决什么？ 构建大规模、低重复、多模态的火灾理解数据集，支持检测+描述+严重性评估。
切入角度：结合真实采集 + SFT/RLHF 微调的 Stable Diffusion 合成 + GPT-4o 标注语义描述 + 4 级严重性分类体系。
核心 idea 一句话：低重复真实图像 + SFT/RLHF 微调 SD 合成 + GPT-4o 语义标注 + 4 级严重性分类 = 多模态火灾理解基准。

方法详解¶

整体框架¶

数据收集: 多源采集 14.5K 图像 + 2.5K 视频 → 去重（PHash+CNN imagededup）→ 标注: Roboflow 检测框 + GPT-4o 生成 75 词描述（燃烧物+环境+严重性）→ 合成数据: SFT 微调 SD v1.5/v2/XL-1.0 + RLHF (Diffusion-DPO) → 质量控制: CLAP 嵌入余弦距离过滤 + 消防专家验证

关键设计¶

4 级严重性分类体系:
做什么：为每张火灾图像标注严重性等级
核心思路：No Risk（无风险）→ Low Risk（小火可控）→ Medium Risk（中等蔓延）→ High Risk（大规模不可控）。每级有具体视觉特征描述
设计动机：仅有"有火/无火"不够——消防决策需要评估严重程度
SFT + RLHF 合成数据:
做什么：用微调的 Stable Diffusion 生成高质量火灾图像
核心思路：SFT——LoRA 微调 SD v1.5/v2/XL-1.0 4000 步。RLHF——Diffusion-DPO 管线，12K 人类偏好对（每 prompt k=2-9 次成对比较）
设计动机：真实火灾数据稀缺且难以安全采集。SFT 生成的图像质量高于 baseline SD（Elo 评分显著提升）
GPT-4o 语义标注流水线:
做什么：为每张图生成结构化描述
核心思路：75 词限制，聚焦三要素：燃烧物体（如建筑/森林/车辆）、环境（室内/室外/时间）、严重程度。人工精炼纠错
设计动机：VLM 微调需要高质量 caption——简单标签不够，需详细场景描述

损失函数 / 训练策略¶

检测: YOLOv11m 标准训练
VLM: LLaMA-3.2-11B 指令微调
合成图结合真实图训练效果更好

实验关键数据¶

主实验¶

任务	方法	指标	值
检测	YOLOv11m (DetectiumFire)	mAP	43.74±0.64
跨域检测	Train DetectiumFire → Test D-Fire	mAP	40.32
跨域检测	Train D-Fire → Test DetectiumFire	mAP	24.88（差）
合成增强	真实+合成	mAP	44.52（+0.78）
VLM 严重性	LLaMA-3.2-11B 微调	准确率	83.84%
VLM 环境	LLaMA-3.2-11B 微调	准确率	89.39%
VLM 燃烧物	LLaMA-3.2-11B 微调	准确率	87.37%
VLM baseline	LLaMA-3.2-11B 未微调	严重性	56.06%（+27.78%）

消融实验¶

数据来源	mAP
真实仅	43.74
合成仅 (FLAME_SD)	2.10
合成仅 (SFT)	33.50
真实 + SFT 合成	44.52

关键发现¶

数据集质量（低重复）极其重要——D-Fire 训练后迁移到 DetectiumFire 仅 24.88 mAP（vs 反向 40.32），证明 DetectiumFire 更难更多样
SFT 合成比其他合成方法好一个数量级（33.50 vs 2.10 mAP）——LoRA 微调有效
RLHF 合成略低于 SFT——可能降低了多样性（偏好对偏向常见场景）
语义描述使 VLM 微调效果显著（严重性 +27.78%）——上下文推理需要详细标注
合成数据是有效的数据增强（+0.78 mAP），但提升有限

亮点与洞察¶

4 级严重性分类填补了火灾 AI 从检测到评估的空白——真正实用的系统需要严重性判断
低重复率（0.03 vs 0.15）说明数据去重对基准质量至关重要
跨域不对称性（DetectiumFire→D-Fire 40.32 vs D-Fire→DetectiumFire 24.88）证明 DetectiumFire 的多样性和困难度更高

局限性 / 可改进方向¶

合成数据提升有限（+0.78 mAP），可能需要更先进的生成策略（如 ControlNet 条件生成）
语言偏差（主要英文+中文搜索）——可能遗漏非英文标注的火灾场景
缺乏人类存在、火灾进展（时序）等更丰富的场景标注
4 级严重性评估仍较粗——10 级或连续评估可能更适合专业消防应用
RLHF 合成反而比 SFT 差——偏好对可能偏向常见场景降低多样性

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模多模态火灾理解数据集 + 严重性分类
实验充分度: ⭐⭐⭐⭐ 检测+VLM+合成+跨域多维评测
写作质量: ⭐⭐⭐⭐ 数据集构建流程详细
价值: ⭐⭐⭐⭐ 为火灾安全 AI 提供了急需的数据基础设施