跳转至

ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts

会议: NeurIPS 2025
arXiv: 2503.23356
代码: https://github.com/Linfeng-Tang/ControlFusion
领域: 图像融合 / 多模态
关键词: 红外可见光融合, 退化恢复, 语言-视觉提示, CLIP, 可控融合

一句话总结

提出 ControlFusion,一种基于语言-视觉退化提示的可控红外-可见光图像融合框架,通过物理驱动的退化成像模型模拟复合退化,并用 prompt-modulated 网络动态恢复+融合,在真实世界和复合退化场景下全面超越 SOTA。

研究背景与动机

  1. 领域现状:红外-可见光图像融合(IVIF)整合热信息和纹理细节,广泛应用于安防、军事检测、自动驾驶等。现有方法包括 CNN/AE/GAN/Transformer/扩散模型等架构。

  2. 现有痛点

  3. 退化鲁棒方法采用简单数据构造策略,合成数据与真实图像存在域差距
  4. 现有方法只处理单一类型退化,无法应对真实世界中的复合退化(如低光+噪声+模糊同时出现)
  5. 缺乏退化程度建模,退化加重时性能急剧下降;且无法适应用户的个性化需求

  6. 核心矛盾:真实场景中退化类型和程度组合多样,固定的融合网络无法灵活应对。

  7. 切入角度:用物理机制构建退化成像模型缩小合成-真实域差距,用语言提示实现退化类型和程度的显式建模,用视觉适配器实现自动退化感知。

  8. 核心idea一句话:语言提示指定退化类型/程度 + 视觉适配器自动感知退化 → 动态调制特征恢复和融合。

方法详解

整体框架

两阶段训练:Stage I 对齐文本嵌入和视觉嵌入(训练视觉适配器);Stage II 训练整体恢复-融合网络。推理时支持两种模式:用户输入文本提示指定退化,或视觉适配器自动感知退化。

关键设计

  1. 物理驱动退化成像模型:
  2. 做什么:为红外/可见光图像分别模拟退化,构建训练数据集 DDL-12(12 种退化 × 4 级程度,约 48,000 训练对)
  3. 核心思路:\(D_m = \mathcal{P}_s(\mathcal{P}_w(\mathcal{P}_i(I_m)))\),分三层嵌套退化——照度退化(Retinex 理论,\(\gamma \in [0.5, 3]\))、天气退化(大气散射模型,含雨和雾)、传感器退化(噪声+运动模糊+对比度降低)
  4. 设计动机:基于物理机制的退化模拟比随机退化更接近真实场景,且红外/可见光的退化类型不同(红外主要是条纹噪声+低对比度,可见光主要是低光/过曝/雨/雾),需分别建模

  5. 空间-频率协同视觉适配器 (SFVA):

  6. 做什么:从退化图像中自动提取退化描述嵌入,替代人工文本输入
  7. 核心思路:频率分支用 FFT 提取频域退化先验(\(F_{fre}^m = \sum_{x,y} D_m(x,y) e^{-j2\pi(\frac{ux}{W} + \frac{vy}{H})}\)),空间分支用 CNN 提取空间特征,两分支拼接后线性投影得到视觉嵌入 \(p_{vis}\)
  8. 设计动机:不同退化在频域有明显特征差异(如噪声集中在高频,模糊导致高频缺失),频率分支能有效捕获这些退化先验;同时 MSE + 余弦相似度损失确保 \(p_{vis}\)\(p_{text}\) 语义对齐

  9. Prompt-Modulated Module (PMM):

  10. 做什么:根据退化提示动态调制融合特征
  11. 核心思路:通过 MLP 从提示 \(p\) 中生成缩放参数 \(\gamma_p\) 和偏移参数 \(\beta_p\)\(\hat{F}_f = (1 + \gamma_p) \odot F_f + \beta_p\),即 FiLM 风格的特征调制
  12. 设计动机:不同退化需要不同的特征增强策略,通过可学习的仿射变换实现条件化恢复

  13. 跨模态交叉注意力融合层:

  14. 做什么:交换两个模态的 Query 进行跨模态特征交互
  15. 核心思路:\(F_f^{ir} = \text{softmax}(\frac{Q_{vi}K_{ir}}{\sqrt{d_k}})V_{ir}\),用可见光的 Query 去检索红外的 Key-Value,反之亦然
  16. 设计动机:跨模态 Query 交换促进了空间对齐的互补信息融合

损失函数 / 训练策略

  • Stage I:\(\mathcal{L}_I = \lambda_1 \|p_{vis} - p_{text}\|^2 + \lambda_2 (1 - \cos(p_{vis}, p_{text}))\)
  • Stage II:强度损失 + SSIM 损失 + 最大梯度损失 + 颜色一致性损失的加权组合

实验关键数据

主实验(典型融合数据集)

方法 MSRS-VIF LLVIP-VIF RoadScene-VIF FMB-VIF
Text-DiFuse 0.850 0.883 0.683 0.793
ControlFusion 0.927 0.968 0.817 0.872

退化场景下的性能(CLIP-IQA / MUSIQ 指标)

ControlFusion 在所有退化类型(模糊、雨、低光、过曝、噪声、条纹噪声、低对比度)和复合退化下均取得最佳或次佳结果。特别是在复合退化(如低光+噪声+雨同时存在)下优势更加明显。

消融实验

配置 EN SD VIF Qabf
完整模型 最佳 最佳 最佳 最佳
w/o SFVA (仅文本) 显著下降 - - -
w/o PMM 明显下降 - - -
w/o 物理退化模型 真实场景泛化差 - - -

关键发现

  • SFVA 生成的视觉嵌入与人工文本嵌入高度对齐,自动化部署成为可能
  • 物理驱动退化模型显著缩小了合成-真实域差距
  • 在 4 级退化程度上性能平稳,不会因退化加重而骤降

亮点与洞察

  • 语言-视觉双通道的退化描述范式:用文本提示实现用户可控,用视觉适配器实现自动化,两者语义对齐——这个思路可以迁移到任何需要条件化处理的图像恢复任务
  • FiLM 风格调制用于退化自适应:简单的仿射变换就能实现强大的条件化效果,避免了为每种退化训练专门模型
  • 物理驱动退化模拟:Retinex + 大气散射 + 传感器噪声的组合建模比纯数据驱动更可靠

局限性 / 可改进方向

  • 文本提示模板相对固定,灵活性有限
  • 4 级退化程度的离散化可能不够精细
  • SFVA 的退化感知能力依赖 Stage I 的对齐质量
  • 未验证在其他多模态融合(如 MRI-CT、多光谱)上的泛化能力

相关工作与启发

  • vs Text-IF:Text-IF 需要人工为每个场景定制文本提示,ControlFusion 通过 SFVA 实现自动化
  • vs Text-DiFuse:Text-DiFuse 基于扩散模型但不处理复合退化,ControlFusion 显式建模多种退化的组合
  • vs DA-CLIP:DA-CLIP 通过微调 CLIP 实现退化感知,但仅针对自然图像;ControlFusion 针对多模态图像设计

评分

  • 新颖性: ⭐⭐⭐⭐ 语言-视觉双通道退化控制 + 物理退化模型的组合设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集 + 7 种退化 + 复合退化 + 消融实验,非常全面
  • 写作质量: ⭐⭐⭐⭐ 条理清晰,公式完整
  • 价值: ⭐⭐⭐⭐ 对工业部署有实际意义,真实场景退化处理是关键痛点