ControlFusion: A Controllable Image Fusion Framework with Language-Vision Degradation Prompts¶

会议: NeurIPS 2025
arXiv: 2503.23356
代码: https://github.com/Linfeng-Tang/ControlFusion
领域: 图像融合 / 多模态
关键词: 红外可见光融合, 退化恢复, 语言-视觉提示, CLIP, 可控融合

一句话总结¶

提出 ControlFusion，一种基于语言-视觉退化提示的可控红外-可见光图像融合框架，通过物理驱动的退化成像模型模拟复合退化，并用 prompt-modulated 网络动态恢复+融合，在真实世界和复合退化场景下全面超越 SOTA。

研究背景与动机¶

领域现状：红外-可见光图像融合（IVIF）整合热信息和纹理细节，广泛应用于安防、军事检测、自动驾驶等。现有方法包括 CNN/AE/GAN/Transformer/扩散模型等架构。
现有痛点：
退化鲁棒方法采用简单数据构造策略，合成数据与真实图像存在域差距
现有方法只处理单一类型退化，无法应对真实世界中的复合退化（如低光+噪声+模糊同时出现）
缺乏退化程度建模，退化加重时性能急剧下降；且无法适应用户的个性化需求
核心矛盾：真实场景中退化类型和程度组合多样，固定的融合网络无法灵活应对。
切入角度：用物理机制构建退化成像模型缩小合成-真实域差距，用语言提示实现退化类型和程度的显式建模，用视觉适配器实现自动退化感知。
核心idea一句话：语言提示指定退化类型/程度 + 视觉适配器自动感知退化 → 动态调制特征恢复和融合。

方法详解¶

整体框架¶

两阶段训练：Stage I 对齐文本嵌入和视觉嵌入（训练视觉适配器）；Stage II 训练整体恢复-融合网络。推理时支持两种模式：用户输入文本提示指定退化，或视觉适配器自动感知退化。

关键设计¶

物理驱动退化成像模型:
做什么：为红外/可见光图像分别模拟退化，构建训练数据集 DDL-12（12 种退化 × 4 级程度，约 48,000 训练对）
核心思路：\(D_m = \mathcal{P}_s(\mathcal{P}_w(\mathcal{P}_i(I_m)))\)，分三层嵌套退化——照度退化（Retinex 理论，\(\gamma \in [0.5, 3]\)）、天气退化（大气散射模型，含雨和雾）、传感器退化（噪声+运动模糊+对比度降低）
设计动机：基于物理机制的退化模拟比随机退化更接近真实场景，且红外/可见光的退化类型不同（红外主要是条纹噪声+低对比度，可见光主要是低光/过曝/雨/雾），需分别建模
空间-频率协同视觉适配器 (SFVA):
做什么：从退化图像中自动提取退化描述嵌入，替代人工文本输入
核心思路：频率分支用 FFT 提取频域退化先验（\(F_{fre}^m = \sum_{x,y} D_m(x,y) e^{-j2\pi(\frac{ux}{W} + \frac{vy}{H})}\)），空间分支用 CNN 提取空间特征，两分支拼接后线性投影得到视觉嵌入 \(p_{vis}\)
设计动机：不同退化在频域有明显特征差异（如噪声集中在高频，模糊导致高频缺失），频率分支能有效捕获这些退化先验；同时 MSE + 余弦相似度损失确保 \(p_{vis}\) 与 \(p_{text}\) 语义对齐
Prompt-Modulated Module (PMM):
做什么：根据退化提示动态调制融合特征
核心思路：通过 MLP 从提示 \(p\) 中生成缩放参数 \(\gamma_p\) 和偏移参数 \(\beta_p\)：\(\hat{F}_f = (1 + \gamma_p) \odot F_f + \beta_p\)，即 FiLM 风格的特征调制
设计动机：不同退化需要不同的特征增强策略，通过可学习的仿射变换实现条件化恢复
跨模态交叉注意力融合层:
做什么：交换两个模态的 Query 进行跨模态特征交互
核心思路：\(F_f^{ir} = \text{softmax}(\frac{Q_{vi}K_{ir}}{\sqrt{d_k}})V_{ir}\)，用可见光的 Query 去检索红外的 Key-Value，反之亦然
设计动机：跨模态 Query 交换促进了空间对齐的互补信息融合

损失函数 / 训练策略¶

Stage I：\(\mathcal{L}_I = \lambda_1 \|p_{vis} - p_{text}\|^2 + \lambda_2 (1 - \cos(p_{vis}, p_{text}))\)
Stage II：强度损失 + SSIM 损失 + 最大梯度损失 + 颜色一致性损失的加权组合

实验关键数据¶

主实验（典型融合数据集）¶

方法	MSRS-VIF	LLVIP-VIF	RoadScene-VIF	FMB-VIF
Text-DiFuse	0.850	0.883	0.683	0.793
ControlFusion	0.927	0.968	0.817	0.872

退化场景下的性能（CLIP-IQA / MUSIQ 指标）¶

ControlFusion 在所有退化类型（模糊、雨、低光、过曝、噪声、条纹噪声、低对比度）和复合退化下均取得最佳或次佳结果。特别是在复合退化（如低光+噪声+雨同时存在）下优势更加明显。

消融实验¶

配置	EN	SD	VIF	Qabf
完整模型	最佳	最佳	最佳	最佳
w/o SFVA (仅文本)	显著下降	-	-	-
w/o PMM	明显下降	-	-	-
w/o 物理退化模型	真实场景泛化差	-	-	-

关键发现¶

SFVA 生成的视觉嵌入与人工文本嵌入高度对齐，自动化部署成为可能
物理驱动退化模型显著缩小了合成-真实域差距
在 4 级退化程度上性能平稳，不会因退化加重而骤降

亮点与洞察¶

语言-视觉双通道的退化描述范式：用文本提示实现用户可控，用视觉适配器实现自动化，两者语义对齐——这个思路可以迁移到任何需要条件化处理的图像恢复任务
FiLM 风格调制用于退化自适应：简单的仿射变换就能实现强大的条件化效果，避免了为每种退化训练专门模型
物理驱动退化模拟：Retinex + 大气散射 + 传感器噪声的组合建模比纯数据驱动更可靠

局限性 / 可改进方向¶

文本提示模板相对固定，灵活性有限
4 级退化程度的离散化可能不够精细
SFVA 的退化感知能力依赖 Stage I 的对齐质量
未验证在其他多模态融合（如 MRI-CT、多光谱）上的泛化能力

评分¶

新颖性: ⭐⭐⭐⭐ 语言-视觉双通道退化控制 + 物理退化模型的组合设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集 + 7 种退化 + 复合退化 + 消融实验，非常全面
写作质量: ⭐⭐⭐⭐ 条理清晰，公式完整
价值: ⭐⭐⭐⭐ 对工业部署有实际意义，真实场景退化处理是关键痛点