HCLFuse: Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws¶

会议: NeurIPS 2025
arXiv: 2510.26268
代码: https://github.com/lxq-jnu/HCLFuse
领域: 图像融合 / 生成模型
关键词: 红外-可见光融合, 变分信息瓶颈, 最优传输, 物理引导扩散, Wasserstein距离

一句话总结¶

HCLFuse 基于信息瓶颈原理和最优传输理论进行模态对齐，设计变分瓶颈编码器（VBE）+ 物理引导条件扩散模型，融合热传导/结构保持/物理一致性三种约束到扩散过程中，在 MSRS 数据集上梯度指标 AG 提升 69.87%，空间频率 SF 提升 39.41%。

研究背景与动机¶

领域现状：红外-可见光图像融合将热信息和纹理细节结合，用于低光/遮挡场景理解。近年生成式方法（基于 GAN/扩散）成为主流。
现有痛点：现有生成融合方法缺乏可解释的模态信息选择机制——如何平衡红外热信息和可见光纹理？高度依赖数据质量，对噪声敏感。生成过程缺乏物理约束导致伪影。
核心矛盾：融合需要同时保留两种模态的关键信息并抑制冗余，但现有方法的信息选择是隐式的、不可控的。
本文要解决什么？ 提供理论基础（信息瓶颈 + 最优传输）来指导融合中的信息选择，并用物理约束规范生成过程。
切入角度：信息瓶颈理论给出了融合的理论框架（保留充分信息同时压缩冗余），最优传输对齐模态分布，物理定律（热传导、结构保持）约束扩散过程。
核心 idea 一句话：信息瓶颈 + 最优传输做模态对齐编码 → 物理引导（热传导+结构保持+物理一致性）条件扩散模型生成融合图像。

方法详解¶

整体框架¶

红外图 \(X\) + 可见光图 \(Y\) → 最优传输对齐: Sinkhorn 散度最小化求映射 \(T^*(X) = P^* \cdot X_{flat}\) → VBE 编码: 多尺度掩码特征提取 → 高斯建模 \(q(Z|F_m) \sim \mathcal{N}(\mu, \sigma^2)\) → 潜在表示 \(Z = \mu + R\) → 物理引导扩散: 在去噪过程中注入热传导/结构保持/物理一致性三种约束 → 融合图像

关键设计¶

变分瓶颈编码器（VBE）+ 最优传输:
做什么：将两种模态对齐后编码为紧凑的潜在表示
核心思路：最优传输映射 \(T^*\) 将红外分布对齐到可见光分布（Sinkhorn 散度最小化）。VBE 损失 \(\mathcal{L}_{VBE} = -\mathbb{E}[\log p(Y|Z)] - \alpha\mathbb{E}[\log p(X'|Z)] + \beta D_{KL}[q(Z|X',Y) \| p(Z)]\)——重建两种模态 + KL 正则化。多尺度可学习掩码 \(M_s = \sigma(w_s)\) 控制不同尺度的信息筛选
设计动机：Theorem 1 证明互信息下界与 Wasserstein 距离相关——最优传输对齐可以收紧互信息界，使编码器保留更多任务相关信息
物理引导条件扩散模型:
做什么：在扩散去噪过程中注入三种物理约束
核心思路：(a) 热传导 \(\Phi_{heat} = \hat{z}_0 + \lambda_{heat}(t) \nabla^2 \hat{z}_0\)——拉普拉斯算子平滑热分布；(b) 结构保持 \(\Phi_{stru} = \hat{z}_0^{heat} + \lambda_{stru}(t)(G_{max} - G_{\hat{z}_0}) M_{stru}\)——梯度增强保护可见光边缘；(c) 物理一致性 \(\Phi_{con} = \hat{z}_0^{stru} + \lambda_{con}(t)(w_{ir} X M_{heat} + w_{vis} Y M_{stru})\)——融合原始模态信息
设计动机：时变引导系数 \(\lambda_i(t) = \lambda_i^0 e^{-\gamma t}\)——早期强引导（粗结构），后期弱引导（细节由模型自主生成）。物理约束替代了不可解释的损失权重
多尺度可学习掩码:
做什么：自适应选择不同尺度的模态信息
核心思路：\(F_m = \sigma(\theta_s \cdot (M_s \odot F_s))\)，\(M_s = \sigma(w_s)\) 是可学习参数
设计动机：不同区域需要不同尺度的信息——热目标区域用粗尺度红外特征，纹理区域用细尺度可见光特征

损失函数 / 训练策略¶

VBE 损失 = 双模态重建 + KL 正则
修正的扩散去噪过程 \(p_\theta^{phys}(z_{t-1}|z_t) \approx \mathcal{N}(\mu_\theta + \Delta\mu_{phys}, \Sigma_\theta)\)
DDIM 采样加速

实验关键数据¶

主实验（MSRS 数据集）¶

指标	次优方法	HCLFuse	提升
AG (梯度)	3.78	6.44	+69.87%
SF (空间频率)	12.84	17.90	+39.41%
DF (离散频率)	4.61	7.64	+65.56%
QSF (四元数)	0.47	0.54	+14.89%

消融实验¶

配置	影响
去掉物理引导 (W/O TPG)	生成不稳定
去掉 VBE	视觉伪影（建筑/天空）
去掉最优传输	所有指标急剧下降
去掉 DDIM	质量退化
完整模型	最优

关键发现¶

最优传输对齐是最关键组件——去掉后所有指标急剧下降
物理引导使生成过程更稳定——无引导时扩散模型容易产生伪影
在 TNO 和 FMB 数据集上也一致改善，泛化性好
下游语义分割也有提升，说明融合质量直接影响高层任务

亮点与洞察¶

理论基础扎实：信息瓶颈 + 最优传输不是简单组合，Theorem 1 严格论证了 OT 对齐如何收紧互信息界，为融合的信息选择提供了理论指导
物理约束替代超参数：传统方法需要手动调节红外/可见光权重，物理引导（热传导/结构保持）提供了更可解释的自动化方案
时变引导系数设计合理：指数衰减使早期保大结构、后期保细节，与扩散模型的粗到细生成过程自然匹配

局限性 / 可改进方向¶

扩散过程计算开销大，难以实时应用
需要红外-可见光对齐的图像对
物理约束假设了特定的热传导模型，可能不适用于所有场景
未在完全未对齐或损坏的图像对上验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 信息瓶颈+最优传输+物理引导扩散的三重创新
实验充分度: ⭐⭐⭐⭐ 多数据集+消融+下游任务
写作质量: ⭐⭐⭐⭐ 理论推导严谨
价值: ⭐⭐⭐⭐ 为生成式融合提供了理论可解释的新范式