CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion¶
会议: AAAI2026
arXiv: 2601.08619
代码: Sevryy/CtrlFuse
领域: 3d_vision
关键词: infrared-visible image fusion, controllable fusion, mask prompt, SAM, semantic segmentation
一句话总结¶
提出 CtrlFuse,通过 mask prompt 引导 SAM 微调,实现红外-可见光图像的交互式可控融合,在融合质量和下游分割/检测任务上同时取得提升。
背景与动机¶
红外-可见光图像融合旨在结合两种模态的互补信息,为智能无人系统提供全天候感知能力。可见光图像提供丰富颜色和高分辨率,但弱光条件下性能下降;红外图像可补偿暗光不足但缺乏纹理信息。
现有方法存在两个核心缺陷:
- 像素级融合方法只关注融合图像与源图像的像素一致性,忽略了融合图像对下游感知任务的适配性
- 任务驱动融合方法通过级联检测/分割模型隐式学习固定语义类别,无法根据不同应用需求动态控制对特定目标的关注
例如,现有方法虽然在训练中学习了目标语义,但在实际车辆分割场景中仍然表现不佳。这表明需要一种语义可控的多模态融合架构,能够根据不同语义需求进行动态可控融合。
核心问题¶
如何构建一个交互式可控的多模态图像融合框架,使用户能够通过 mask prompt 动态指定感兴趣的语义目标,同时实现融合质量与下游任务性能的相互促进?
方法详解¶
整体架构¶
CtrlFuse 包含四个核心组件:
- 多模态骨干编码器-解码器:分别提取红外特征 \(F_{ir}\) 和可见光特征 \(F_{vis}\),拼接后通过解码器生成参考图像 \(I_{ref}\)
- Reference Prompt Encoder (RPE):在 mask 引导下动态编码任务相关的语义 prompt
- Prompt-Semantic Fusion Module (PSFM):将语义 prompt 显式注入融合特征
- 冻结的 SAM:提供强大的语义感知基础能力
Reference Prompt Encoder¶
以红外分支为例:
- 将 mask prompt 与红外特征 \(F_{ir}\) 做 Hadamard 积后平均池化,得到目标特征 \(F_t\)
- 将 \(F_{ir}\) 和 \(F_{ref}\) 分别与 \(F_t\) 拼接后卷积,生成 support 特征 \(F_{supp}\) 和 query 特征 \(F_{qry}\)
- 使用可学习 queries \(Q \in \mathbb{R}^{N \times C}\)(\(N=40\)),通过交叉注意力从 \(F_{supp}\) 提取类别相关信息得到 \(Q'\)
- \(Q'\) 再与 \(F_{qry}\) 交叉注意力生成参考 prompt \(P'\),经冻结的 SAM Prompt Encoder 生成最终 prompt embedding \(P\)
Prompt-Semantic Fusion Module¶
- 对编码特征 \(F\) 下采样后展平为序列 \(F_{seq}\)
- \(F_{seq}\) 与 prompt embedding \(P\) 通过交叉注意力机制融合
- 恢复空间维度并上采样,与 SAM 分割 mask \(M\) 逐元素相乘,得到类别增强特征 \(F^p\)
最终融合特征由初步融合特征 \(F_{ref}\) 与红外和可见光的 prompt 特征 \(F_{ir}^p\)、\(F_{vis}^p\) 逐元素相加得到,输入解码器生成最终融合图像。
训练策略¶
端到端训练,同时优化融合损失 \(\mathcal{L}_{fusion}\) 和分割损失 \(\mathcal{L}_{seg}\)。
实验关键数据¶
融合质量(三个数据集)¶
| 数据集 | 最优指标 | 具体表现 |
|---|---|---|
| FMB | PSNR/Q_abf/N_abf 最优 | PSNR=63.292, Q_abf=0.719 |
| DroneVehicle | MSE/PSNR/SCD 最优 | PSNR=60.317, SCD=1.552 |
| MSRS | PSNR/N_abf 最优 | PSNR=64.75, N_abf=0.018 |
语义分割(MSRS)¶
- mIoU=0.7963,8种方法中最优
- 在 Car、Curve、Guardrail、Color Tone 四个类别上最优
目标检测(DroneVehicle)¶
- AP@[0.5:0.95] 总体=0.525,最优
- car 类别 AP=0.651,bus 类别 AP=0.521,均为最优
消融实验(MSRS)¶
| 配置 | SSIM | SCD | 结论 |
|---|---|---|---|
| w/o Prompt | 0.933 | 1.635 | prompt 对结构保持至关重要 |
| w/o Seg | 0.939 | 1.636 | 分割分支有助于融合质量 |
| w/o Vis | 0.915 | 1.681 | 可见光分支不可或缺 |
| w/o Ir | 0.938 | 1.622 | 红外分支不可或缺 |
| Exchange SQ | 0.924 | 1.659 | 原始 support/query 设计更优 |
| 完整模型 | 0.969 | 1.726 | 各组件协同提升 |
亮点¶
- 交互式可控融合:首次在红外-可见光融合中引入 mask prompt 实现交互式动态融合,用户可以指定关注目标
- 融合-分割协同增强:联合优化使融合质量和分割性能相互促进,微调后的 SAM 分支甚至超越原始 SAM 模型的分割效果
- 对 prompt 质量鲁棒:即使 mask 不完整或质量较低(只标注部分目标),融合结果仍能有效突出目标区域
- 通用 prompt 来源:可直接使用 Grounded-SAM 从文本生成 mask prompt,无需标注数据即可在新数据集上实现可控融合
局限性 / 可改进方向¶
- 依赖 mask prompt 输入:需要额外的 mask 作为引导,增加了使用复杂度;自动化 prompt 生成管线(如文本到 mask)的质量直接影响最终效果
- 冻结 SAM 的瓶颈:SAM image encoder 和 mask decoder 均冻结,对红外模态的适应能力有限,可考虑轻量级 adapter 微调
- 分类定位有误差:论文被归类为 3d_vision,实际属于 image fusion / multimodal perception 领域
- 仅支持灰度融合输出:最终融合图像为单通道 \(I_{\mathcal{F}} \in \mathbb{R}^{1 \times H \times W}\),丢弃了可见光的颜色信息
- 计算开销未详述:使用 SAM 作为辅助网络的推理速度和显存占用未充分讨论
与相关工作的对比¶
| 方法 | 特点 | 局限 |
|---|---|---|
| SeAFusion | 分割驱动,联合优化 | 固定语义类别,不可控 |
| PSFusion | 高层视觉任务驱动 | 隐式语义学习,无交互 |
| SDCFusion | 分割驱动+深度分解 | 仍然受限于预定义类别 |
| LDFusion | CLIP 文本引导 | 文本语义粗糙,难以精细控制 |
| CtrlFuse | mask prompt + SAM 微调 | 显式语义注入,交互可控 |
CtrlFuse 与现有任务驱动方法的本质区别在于:从"固定类别隐式语义学习"转变为"mask prompt 引导的显式可控语义注入",借助 SAM 的强大零样本泛化能力实现对任意语义目标的动态融合。
启发与关联¶
- Prompt Tuning 范式的迁移:将 NLP/视觉大模型中的 prompt tuning 思想引入底层图像融合任务,这种"基础模型 + prompt"的范式可推广到其他底层视觉任务(去噪、超分等)
- 任务协同优化:融合和分割的相互促进表明,多任务联合训练中任务间的正向迁移效应值得深入挖掘
- 可控性作为评价维度:除传统像素指标外,可控性应成为多模态融合方法的重要评价维度
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次在红外-可见光融合中实现基于 mask prompt 的交互可控融合
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集,融合/分割/检测三类任务,消融完整
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述详细,图表丰富
- 价值: ⭐⭐⭐⭐ — 为多模态融合引入可控范式,实用价值高