ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts¶
会议: NeurIPS 2025
arXiv: 2503.23356
代码: https://github.com/Linfeng-Tang/ControlFusion
领域: 图像融合 / 多模态
关键词: 红外可见光融合, 退化恢复, 语言-视觉提示, CLIP, 可控融合
一句话总结¶
提出 ControlFusion,一种基于语言-视觉退化提示的可控红外-可见光图像融合框架,通过物理驱动的退化成像模型模拟复合退化,并用 prompt-modulated 网络动态恢复+融合,在真实世界和复合退化场景下全面超越 SOTA。
研究背景与动机¶
-
领域现状:红外-可见光图像融合(IVIF)整合热信息和纹理细节,广泛应用于安防、军事检测、自动驾驶等。现有方法包括 CNN/AE/GAN/Transformer/扩散模型等架构。
-
现有痛点:
- 退化鲁棒方法采用简单数据构造策略,合成数据与真实图像存在域差距
- 现有方法只处理单一类型退化,无法应对真实世界中的复合退化(如低光+噪声+模糊同时出现)
-
缺乏退化程度建模,退化加重时性能急剧下降;且无法适应用户的个性化需求
-
核心矛盾:真实场景中退化类型和程度组合多样,固定的融合网络无法灵活应对。
-
切入角度:用物理机制构建退化成像模型缩小合成-真实域差距,用语言提示实现退化类型和程度的显式建模,用视觉适配器实现自动退化感知。
-
核心idea一句话:语言提示指定退化类型/程度 + 视觉适配器自动感知退化 → 动态调制特征恢复和融合。
方法详解¶
整体框架¶
两阶段训练:Stage I 对齐文本嵌入和视觉嵌入(训练视觉适配器);Stage II 训练整体恢复-融合网络。推理时支持两种模式:用户输入文本提示指定退化,或视觉适配器自动感知退化。
关键设计¶
- 物理驱动退化成像模型:
- 做什么:为红外/可见光图像分别模拟退化,构建训练数据集 DDL-12(12 种退化 × 4 级程度,约 48,000 训练对)
- 核心思路:\(D_m = \mathcal{P}_s(\mathcal{P}_w(\mathcal{P}_i(I_m)))\),分三层嵌套退化——照度退化(Retinex 理论,\(\gamma \in [0.5, 3]\))、天气退化(大气散射模型,含雨和雾)、传感器退化(噪声+运动模糊+对比度降低)
-
设计动机:基于物理机制的退化模拟比随机退化更接近真实场景,且红外/可见光的退化类型不同(红外主要是条纹噪声+低对比度,可见光主要是低光/过曝/雨/雾),需分别建模
-
空间-频率协同视觉适配器 (SFVA):
- 做什么:从退化图像中自动提取退化描述嵌入,替代人工文本输入
- 核心思路:频率分支用 FFT 提取频域退化先验(\(F_{fre}^m = \sum_{x,y} D_m(x,y) e^{-j2\pi(\frac{ux}{W} + \frac{vy}{H})}\)),空间分支用 CNN 提取空间特征,两分支拼接后线性投影得到视觉嵌入 \(p_{vis}\)
-
设计动机:不同退化在频域有明显特征差异(如噪声集中在高频,模糊导致高频缺失),频率分支能有效捕获这些退化先验;同时 MSE + 余弦相似度损失确保 \(p_{vis}\) 与 \(p_{text}\) 语义对齐
-
Prompt-Modulated Module (PMM):
- 做什么:根据退化提示动态调制融合特征
- 核心思路:通过 MLP 从提示 \(p\) 中生成缩放参数 \(\gamma_p\) 和偏移参数 \(\beta_p\):\(\hat{F}_f = (1 + \gamma_p) \odot F_f + \beta_p\),即 FiLM 风格的特征调制
-
设计动机:不同退化需要不同的特征增强策略,通过可学习的仿射变换实现条件化恢复
-
跨模态交叉注意力融合层:
- 做什么:交换两个模态的 Query 进行跨模态特征交互
- 核心思路:\(F_f^{ir} = \text{softmax}(\frac{Q_{vi}K_{ir}}{\sqrt{d_k}})V_{ir}\),用可见光的 Query 去检索红外的 Key-Value,反之亦然
- 设计动机:跨模态 Query 交换促进了空间对齐的互补信息融合
损失函数 / 训练策略¶
- Stage I:\(\mathcal{L}_I = \lambda_1 \|p_{vis} - p_{text}\|^2 + \lambda_2 (1 - \cos(p_{vis}, p_{text}))\)
- Stage II:强度损失 + SSIM 损失 + 最大梯度损失 + 颜色一致性损失的加权组合
实验关键数据¶
主实验(典型融合数据集)¶
| 方法 | MSRS-VIF | LLVIP-VIF | RoadScene-VIF | FMB-VIF |
|---|---|---|---|---|
| Text-DiFuse | 0.850 | 0.883 | 0.683 | 0.793 |
| ControlFusion | 0.927 | 0.968 | 0.817 | 0.872 |
退化场景下的性能(CLIP-IQA / MUSIQ 指标)¶
ControlFusion 在所有退化类型(模糊、雨、低光、过曝、噪声、条纹噪声、低对比度)和复合退化下均取得最佳或次佳结果。特别是在复合退化(如低光+噪声+雨同时存在)下优势更加明显。
消融实验¶
| 配置 | EN | SD | VIF | Qabf |
|---|---|---|---|---|
| 完整模型 | 最佳 | 最佳 | 最佳 | 最佳 |
| w/o SFVA (仅文本) | 显著下降 | - | - | - |
| w/o PMM | 明显下降 | - | - | - |
| w/o 物理退化模型 | 真实场景泛化差 | - | - | - |
关键发现¶
- SFVA 生成的视觉嵌入与人工文本嵌入高度对齐,自动化部署成为可能
- 物理驱动退化模型显著缩小了合成-真实域差距
- 在 4 级退化程度上性能平稳,不会因退化加重而骤降
亮点与洞察¶
- 语言-视觉双通道的退化描述范式:用文本提示实现用户可控,用视觉适配器实现自动化,两者语义对齐——这个思路可以迁移到任何需要条件化处理的图像恢复任务
- FiLM 风格调制用于退化自适应:简单的仿射变换就能实现强大的条件化效果,避免了为每种退化训练专门模型
- 物理驱动退化模拟:Retinex + 大气散射 + 传感器噪声的组合建模比纯数据驱动更可靠
局限性 / 可改进方向¶
- 文本提示模板相对固定,灵活性有限
- 4 级退化程度的离散化可能不够精细
- SFVA 的退化感知能力依赖 Stage I 的对齐质量
- 未验证在其他多模态融合(如 MRI-CT、多光谱)上的泛化能力
相关工作与启发¶
- vs Text-IF:Text-IF 需要人工为每个场景定制文本提示,ControlFusion 通过 SFVA 实现自动化
- vs Text-DiFuse:Text-DiFuse 基于扩散模型但不处理复合退化,ControlFusion 显式建模多种退化的组合
- vs DA-CLIP:DA-CLIP 通过微调 CLIP 实现退化感知,但仅针对自然图像;ControlFusion 针对多模态图像设计
评分¶
- 新颖性: ⭐⭐⭐⭐ 语言-视觉双通道退化控制 + 物理退化模型的组合设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集 + 7 种退化 + 复合退化 + 消融实验,非常全面
- 写作质量: ⭐⭐⭐⭐ 条理清晰,公式完整
- 价值: ⭐⭐⭐⭐ 对工业部署有实际意义,真实场景退化处理是关键痛点