跳转至

HCLFuse: Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws

会议: NeurIPS 2025
arXiv: 2510.26268
代码: https://github.com/lxq-jnu/HCLFuse
领域: 图像融合 / 生成模型
关键词: 红外-可见光融合, 变分信息瓶颈, 最优传输, 物理引导扩散, Wasserstein距离

一句话总结

HCLFuse 基于信息瓶颈原理和最优传输理论进行模态对齐,设计变分瓶颈编码器(VBE)+ 物理引导条件扩散模型,融合热传导/结构保持/物理一致性三种约束到扩散过程中,在 MSRS 数据集上梯度指标 AG 提升 69.87%,空间频率 SF 提升 39.41%。

研究背景与动机

  1. 领域现状:红外-可见光图像融合将热信息和纹理细节结合,用于低光/遮挡场景理解。近年生成式方法(基于 GAN/扩散)成为主流。
  2. 现有痛点:现有生成融合方法缺乏可解释的模态信息选择机制——如何平衡红外热信息和可见光纹理?高度依赖数据质量,对噪声敏感。生成过程缺乏物理约束导致伪影。
  3. 核心矛盾:融合需要同时保留两种模态的关键信息并抑制冗余,但现有方法的信息选择是隐式的、不可控的。
  4. 本文要解决什么? 提供理论基础(信息瓶颈 + 最优传输)来指导融合中的信息选择,并用物理约束规范生成过程。
  5. 切入角度:信息瓶颈理论给出了融合的理论框架(保留充分信息同时压缩冗余),最优传输对齐模态分布,物理定律(热传导、结构保持)约束扩散过程。
  6. 核心 idea 一句话:信息瓶颈 + 最优传输做模态对齐编码 → 物理引导(热传导+结构保持+物理一致性)条件扩散模型生成融合图像。

方法详解

整体框架

红外图 \(X\) + 可见光图 \(Y\)最优传输对齐: Sinkhorn 散度最小化求映射 \(T^*(X) = P^* \cdot X_{flat}\)VBE 编码: 多尺度掩码特征提取 → 高斯建模 \(q(Z|F_m) \sim \mathcal{N}(\mu, \sigma^2)\) → 潜在表示 \(Z = \mu + R\)物理引导扩散: 在去噪过程中注入热传导/结构保持/物理一致性三种约束 → 融合图像

关键设计

  1. 变分瓶颈编码器(VBE)+ 最优传输:
  2. 做什么:将两种模态对齐后编码为紧凑的潜在表示
  3. 核心思路:最优传输映射 \(T^*\) 将红外分布对齐到可见光分布(Sinkhorn 散度最小化)。VBE 损失 \(\mathcal{L}_{VBE} = -\mathbb{E}[\log p(Y|Z)] - \alpha\mathbb{E}[\log p(X'|Z)] + \beta D_{KL}[q(Z|X',Y) \| p(Z)]\)——重建两种模态 + KL 正则化。多尺度可学习掩码 \(M_s = \sigma(w_s)\) 控制不同尺度的信息筛选
  4. 设计动机:Theorem 1 证明互信息下界与 Wasserstein 距离相关——最优传输对齐可以收紧互信息界,使编码器保留更多任务相关信息

  5. 物理引导条件扩散模型:

  6. 做什么:在扩散去噪过程中注入三种物理约束
  7. 核心思路:(a) 热传导 \(\Phi_{heat} = \hat{z}_0 + \lambda_{heat}(t) \nabla^2 \hat{z}_0\)——拉普拉斯算子平滑热分布;(b) 结构保持 \(\Phi_{stru} = \hat{z}_0^{heat} + \lambda_{stru}(t)(G_{max} - G_{\hat{z}_0}) M_{stru}\)——梯度增强保护可见光边缘;(c) 物理一致性 \(\Phi_{con} = \hat{z}_0^{stru} + \lambda_{con}(t)(w_{ir} X M_{heat} + w_{vis} Y M_{stru})\)——融合原始模态信息
  8. 设计动机:时变引导系数 \(\lambda_i(t) = \lambda_i^0 e^{-\gamma t}\)——早期强引导(粗结构),后期弱引导(细节由模型自主生成)。物理约束替代了不可解释的损失权重

  9. 多尺度可学习掩码:

  10. 做什么:自适应选择不同尺度的模态信息
  11. 核心思路:\(F_m = \sigma(\theta_s \cdot (M_s \odot F_s))\)\(M_s = \sigma(w_s)\) 是可学习参数
  12. 设计动机:不同区域需要不同尺度的信息——热目标区域用粗尺度红外特征,纹理区域用细尺度可见光特征

损失函数 / 训练策略

  • VBE 损失 = 双模态重建 + KL 正则
  • 修正的扩散去噪过程 \(p_\theta^{phys}(z_{t-1}|z_t) \approx \mathcal{N}(\mu_\theta + \Delta\mu_{phys}, \Sigma_\theta)\)
  • DDIM 采样加速

实验关键数据

主实验(MSRS 数据集)

指标 次优方法 HCLFuse 提升
AG (梯度) 3.78 6.44 +69.87%
SF (空间频率) 12.84 17.90 +39.41%
DF (离散频率) 4.61 7.64 +65.56%
QSF (四元数) 0.47 0.54 +14.89%

消融实验

配置 影响
去掉物理引导 (W/O TPG) 生成不稳定
去掉 VBE 视觉伪影(建筑/天空)
去掉最优传输 所有指标急剧下降
去掉 DDIM 质量退化
完整模型 最优

关键发现

  • 最优传输对齐是最关键组件——去掉后所有指标急剧下降
  • 物理引导使生成过程更稳定——无引导时扩散模型容易产生伪影
  • 在 TNO 和 FMB 数据集上也一致改善,泛化性好
  • 下游语义分割也有提升,说明融合质量直接影响高层任务

亮点与洞察

  • 理论基础扎实:信息瓶颈 + 最优传输不是简单组合,Theorem 1 严格论证了 OT 对齐如何收紧互信息界,为融合的信息选择提供了理论指导
  • 物理约束替代超参数:传统方法需要手动调节红外/可见光权重,物理引导(热传导/结构保持)提供了更可解释的自动化方案
  • 时变引导系数设计合理:指数衰减使早期保大结构、后期保细节,与扩散模型的粗到细生成过程自然匹配

局限性 / 可改进方向

  • 扩散过程计算开销大,难以实时应用
  • 需要红外-可见光对齐的图像对
  • 物理约束假设了特定的热传导模型,可能不适用于所有场景
  • 未在完全未对齐或损坏的图像对上验证

相关工作与启发

  • vs DiffFuse: 基于扩散的融合但无物理约束,容易产生不自然的伪影
  • vs CDDFuse: 基于去相关策略的融合,信息选择不如信息瓶颈理论优雅
  • vs TarDAL: 检测驱动的融合,HCLFuse 的物理引导更通用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 信息瓶颈+最优传输+物理引导扩散的三重创新
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+消融+下游任务
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐⭐ 为生成式融合提供了理论可解释的新范式