Task-driven Image Fusion with Learnable Fusion Loss¶

会议: CVPR 2025
arXiv: 2412.03240
代码: https://github.com/HaowenBai/TDFusion
领域: 分割/图像融合
关键词: 多模态图像融合, 元学习, 可学习损失函数, 语义分割, 目标检测

一句话总结¶

本文提出 TDFusion，通过元学习方式训练一个损失生成模块，使融合损失函数能够根据下游任务（语义分割或目标检测）自适应地调整，从而让红外-可见光融合图像在下游任务上表现最优。

研究背景与动机¶

领域现状：多模态图像融合将红外与可见光图像的信息聚合为一张融合图像，广泛应用于语义分割、目标检测等下游任务。现有方法通常使用预定义的融合损失（如强度损失、梯度损失），或者通过级联下游任务网络引入任务损失来约束融合。

现有痛点：即使引入了下游任务，现有框架仍依赖固定的融合损失项，缺乏动态适应能力。手动定义的损失函数施加了预设的先验约束，无法根据具体图像对和任务需求灵活调整融合偏好。这导致融合结果对特定任务的适配性有限。

核心矛盾：融合损失的设计目标（视觉质量）与下游任务的需求（语义特征、检测精度）之间存在 gap。预定义损失无法动态捕捉不同任务对源图像信息的不同偏好——分割任务偏好边界和纹理，检测任务偏好目标区域的对比度。

本文目标：设计一个框架，使融合损失本身成为可学习的，让下游任务的损失直接驱动融合过程的优化方向。

切入角度：作者观察到融合损失的本质是控制"保留多少来自各源图像的强度信息"，将其参数化为逐像素权重 \(w_a, w_b\)，用一个神经网络（损失生成模块）来预测这些权重。

核心 idea：用元学习（MAML 风格）来训练损失生成模块——内层更新用融合损失更新融合网络的副本，外层用下游任务损失更新损失生成模块，使得融合损失的生成始终朝着最小化任务损失的方向演化。

方法详解¶

整体框架¶

TDFusion 包含三个模块：融合网络 \(\mathcal{F}\)（负责将红外和可见光图像融合为一张图）、下游任务网络 \(\mathcal{T}\)（如 SegFormer 或 YOLOv8）、损失生成模块 \(\mathcal{G}\)（输出可学习融合损失的参数）。训练时，融合网络和损失生成模块交替更新：先通过元学习流程（内层+外层）优化损失生成模块，然后用优化后的融合损失训练融合网络。

关键设计¶

可学习融合损失（Learnable Fusion Loss）:
- 功能：根据下游任务需求自适应地生成逐像素的融合权重
- 核心思路：融合损失由强度项和梯度项组成 \(\mathcal{L}_f = \mathcal{L}_f^{int} + \alpha \mathcal{L}_f^{grad}\)。强度项中，损失生成模块对输入的红外和可见光图像预测逐像素权重 \(\{w_a, w_b\} = \mathcal{G}(I_a, I_b)\)，Softmax 保证 \(w_a^{ij} + w_b^{ij} = 1\)，控制融合图像应更接近哪个源图像。梯度项用 Sobel 算子提取梯度，要求融合图像保留源图像中较大的梯度值。
- 设计动机：传统方法的融合损失权重是固定的（如均分 \(1/2\)），无法区分不同任务、不同区域的信息偏好。可学习权重使模型能够针对每个像素决定偏好红外还是可见光信息。
元学习训练策略（Meta-learning Training）:
- 功能：让下游任务损失驱动融合损失的优化
- 核心思路：采用 MAML 风格的两阶段更新。内层更新：克隆融合网络 \(\mathcal{F}'\) 和任务网络 \(\mathcal{T}'\)，用当前融合损失在 meta-training set 上各更新一步，得到中间参数 \(\theta_{\mathcal{F}'}\) 和 \(\theta_{\mathcal{T}'}\)。外层更新：用 \(\mathcal{F}'\) 在 meta-test set 上生成融合图像，计算下游任务损失 \(\mathcal{L}_t\)，反向传播更新损失生成模块 \(\theta_{\mathcal{G}}\)。关键在于内层更新保留了 \(\theta_{\mathcal{F}'}\) 对 \(\theta_{\mathcal{G}}\) 的计算图，使得二阶梯度可以传回损失生成模块。
- 设计动机：直接用任务损失训练融合网络会使融合退化为任务特定的特征提取，丧失融合图像的视觉质量。元学习策略让任务损失间接地通过优化融合损失来指导融合，保持了融合损失框架的通用性。
数据分割与交替训练:
- 功能：避免过拟合，确保损失生成模块的泛化能力
- 核心思路：每个 epoch 从融合训练集中随机采样不重叠的 meta-training set 和 meta-test set（各 \(M\) 对图像）。损失生成模块在这些子集上完成 \(M\) 步元学习后，融合网络在完整训练集上用更新后的融合损失训练 \(N\) 步。两者交替进行 \(L\) 个 epoch。
- 设计动机：meta-train/meta-test 的分离确保了损失生成模块不是在记忆特定图像对，而是学到了通用的任务偏好模式。交替更新保证融合损失在融合网络的不同训练阶段都能保持最优。

损失函数 / 训练策略¶

融合损失 \(\mathcal{L}_f\) 包含可学习强度损失和固定梯度损失，权重 \(\alpha=1\)。下游任务损失 \(\mathcal{L}_t\) 取决于具体任务：语义分割用交叉熵损失，目标检测用 YOLO 损失。使用 Adam 优化器，学习率 \(1 \times 10^{-4}\)，batch size 为 2。融合网络基于 Restormer Block 构建，损失生成模块同样使用 Restormer Block 加 Softmax 输出。

实验关键数据¶

主实验¶

在四个数据集（MSRS、FMB、M3FD、LLVIP）上进行融合和下游任务评估：

方法	MSRS mIoU↑	FMB mIoU↑	M3FD mAP50↑	LLVIP AP50↑
TarDAL	71.35	55.33	83.16	93.79
SegMIF	74.25	58.41	83.61	93.95
EMMA	74.48	56.28	83.71	94.00
MRFS	74.50	55.71	83.28	93.03
TIMFusion	73.58	57.24	83.22	93.76
TDFusion	75.09	60.50	86.27	95.00

消融实验¶

配置	EN↑	SF↑	SCD↑	VIF↑	\(Q^{AB/F}\)↑	SSIM↑
固定 \(w_a=w_b=0.5\)	6.60	13.73	1.58	0.39	0.60	0.72
去掉梯度损失	6.77	11.65	1.63	0.37	0.64	0.73
\(\theta_\mathcal{F}\) 同时受任务损失影响	6.80	13.85	1.70	0.41	0.66	0.73
去掉融合独立学习	6.82	14.07	1.72	0.41	0.67	0.72
用加权平均替代融合网络	6.75	11.49	1.65	0.38	0.62	0.73
完整 TDFusion	6.86	14.16	1.76	0.43	0.68	0.75

关键发现¶

固定权重 \(w_a=w_b=0.5\) 相比可学习权重，SCD 从 1.76 降至 1.58，说明自适应权重是核心贡献
去掉梯度损失后 SF（空间频率）从 14.16 骤降至 11.65，说明梯度项对保留纹理细节至关重要
直接用任务损失训练 \(\theta_\mathcal{F}\)（Exp III）反而不如通过元学习间接优化，验证了元学习策略的必要性
可视化显示语义分割偏好可见光纹理+红外低光照信息，检测偏好红外中的高亮目标区域，两个任务的融合权重分布有明显差异

亮点与洞察¶

"学习如何学习损失函数"的范式：不是设计更好的损失函数，而是让元学习自动生成最适合下游任务的损失函数，这个思路具有很强的通用性，可迁移到其他无 ground truth 的任务
融合权重的可解释性：逐像素的 \(w_a, w_b\) 可视化清楚地展示了不同任务对信息的偏好差异，为理解多模态融合提供了直观工具
架构无关性：框架对融合网络和任务网络的架构没有要求，可以即插即用地替换为任意网络

局限与展望¶

元学习的二阶梯度计算增加了训练成本，单 GPU（RTX 3090）训练依赖较小的 batch size
仅验证了红外-可见光融合场景，未扩展到 CT-MRI 等医学图像融合
损失生成模块的 Softmax 约束限制了 \(w_a + w_b = 1\)，无法表达"同时强调两个源"的情况
未来可以探索将可学习损失思路扩展到更多无监督任务（如超分辨率、去雾等）

评分¶

新颖性: 8/10 — 将元学习用于学习融合损失函数的想法新颖且优雅，但 MAML 框架本身已有成熟应用
实验充分度: 8/10 — 四个数据集+两个下游任务+完整消融，实验设计全面
写作质量: 7/10 — 公式推导详细但文章较长，核心思想可以更简洁地表达
价值: 7/10 — 对多模态融合领域有价值，但应用范围限于红外-可见光融合