Text-Guided Channel Perturbation and Pretrained Knowledge Integration for Unified Multi-Modality Image Fusion¶

会议: AAAI2026
arXiv: 2511.12432
代码: 待确认
领域: 图像融合 / 多模态
关键词: 多模态图像融合, 统一模型, 通道扰动, CLIP文本引导, 预训练知识

一句话总结¶

提出 UP-Fusion 统一多模态图像融合框架，通过语义感知通道剪枝 (SCPM)、几何仿射调制 (GAM) 和 CLIP 文本引导通道扰动 (TCPM) 三个模块，用单组权重（仅在红外-可见光数据上训练）同时处理 IVIF 和医学图像融合，在两类任务上均达到 SOTA。

领域现状：多模态图像融合包括红外-可见光融合 (IVIF) 和医学图像融合 (MEIF) 两大类。现有方法通常为每类任务单独设计模型，缺乏统一框架。
现有痛点：(1) 任务特定模型无法跨模态泛化——IVIF 模型在医学融合上表现差，反之亦然；(2) 统一方法要么牺牲融合质量、要么需要多任务训练数据；(3) 直接注入模态特征容易导致模态过拟合。
核心矛盾：如何用一个模型和一组权重同时处理多种模态组合，在不同融合任务间保持质量？
本文要解决什么？ 构建一个仅在单一任务（IVIF）上训练即可泛化到其他模态融合任务的统一框架。
切入角度：通过通道扰动（而非直接特征注入）减少模态依赖，用预训练知识（ConvNeXt + CLIP）提供跨任务泛化能力。
核心 idea 一句话：通道扰动+预训练知识实现"模态无关"的统一融合。

Transformer 编码器-解码器架构（4层编码/4层解码）。编码器提取多模态特征后，SCPM 做语义感知通道剪枝，GAM 做几何仿射调制，TCPM 做文本引导通道扰动。仅在 LLVIP（红外-可见光）训练。

语义感知通道剪枝模块 (SCPM):
做什么：融合预训练语义知识指导的通道选择
核心思路：SE-block 计算通道重要性 \(\omega_C\)，预训练 ConvNeXt 提取语义特征映射为 \(\omega_S\)，融合权重 \(\omega_F = \omega_C + \alpha \cdot \sigma(\omega_S)\)（\(\alpha\) 可学习）。Top-k 保留 70% 通道，1×1 卷积扩展回原维度
设计动机：ConvNeXt 的语义先验帮助在不同模态上做正确的通道选择——是跨任务泛化的关键
几何仿射调制模块 (GAM):
做什么：使融合特征适配各模态的几何特性
核心思路：对原始模态特征做全局平均池化，两层 1×1 卷积生成缩放 \(\gamma\) 和偏移 \(\beta\)，仿射变换：\(F_O^M = Fuse^M \cdot (1 + \gamma) + \beta\)
设计动机：使用仿射变换而非直接特征注入，避免模态过拟合
文本引导通道扰动模块 (TCPM):
做什么：用 CLIP 文本特征引导通道重排列
核心思路：拼接多模态特征→通道注意力选 top-50%→1×1 卷积扩展到 2× 通道→CLIP 编码文本→线性映射→bootstrap 权重→通道重排列→自注意力（扰动做 Q，原始做 K/V）
设计动机：通道扰动比直接条件化更不容易过拟合特定模态

\(L_T = L_{grad} + L_{l_1}\)。仅在 LLVIP 训练，100 epochs，192×192，Adam，LR 0.0001→0.00001 余弦衰减。

方法	MSRS \(Q_P\)	MSRS VIF	LLVIP VIF	M3FD VIF
SAGE	0.5210	0.4359	0.3590	0.4110
TDFusion	0.5529	0.4257	0.3577	0.4041
UP-Fusion	0.5671	0.4587	0.3817	0.4582

方法	Harvard \(Q_P\)	Harvard VIF
ALMFnet (专用)	0.5434	0.3003
UP-Fusion	0.5665	0.3190

变体	\(Q_P\)	VIF	SSIM
w/o SCPM	0.5343	0.3046	0.2645
w/o TCPM	0.5221	0.3016	0.2824
UP-Fusion	0.5665	0.3190	0.3639