HCLFuse: Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws¶
会议: NeurIPS 2025
arXiv: 2510.26268
代码: https://github.com/lxq-jnu/HCLFuse
领域: 图像融合 / 生成模型
关键词: 红外-可见光融合, 变分信息瓶颈, 最优传输, 物理引导扩散, Wasserstein距离
一句话总结¶
HCLFuse 基于信息瓶颈原理和最优传输理论进行模态对齐,设计变分瓶颈编码器(VBE)+ 物理引导条件扩散模型,融合热传导/结构保持/物理一致性三种约束到扩散过程中,在 MSRS 数据集上梯度指标 AG 提升 69.87%,空间频率 SF 提升 39.41%。
研究背景与动机¶
- 领域现状:红外-可见光图像融合将热信息和纹理细节结合,用于低光/遮挡场景理解。近年生成式方法(基于 GAN/扩散)成为主流。
- 现有痛点:现有生成融合方法缺乏可解释的模态信息选择机制——如何平衡红外热信息和可见光纹理?高度依赖数据质量,对噪声敏感。生成过程缺乏物理约束导致伪影。
- 核心矛盾:融合需要同时保留两种模态的关键信息并抑制冗余,但现有方法的信息选择是隐式的、不可控的。
- 本文要解决什么? 提供理论基础(信息瓶颈 + 最优传输)来指导融合中的信息选择,并用物理约束规范生成过程。
- 切入角度:信息瓶颈理论给出了融合的理论框架(保留充分信息同时压缩冗余),最优传输对齐模态分布,物理定律(热传导、结构保持)约束扩散过程。
- 核心 idea 一句话:信息瓶颈 + 最优传输做模态对齐编码 → 物理引导(热传导+结构保持+物理一致性)条件扩散模型生成融合图像。
方法详解¶
整体框架¶
红外图 \(X\) + 可见光图 \(Y\) → 最优传输对齐: Sinkhorn 散度最小化求映射 \(T^*(X) = P^* \cdot X_{flat}\) → VBE 编码: 多尺度掩码特征提取 → 高斯建模 \(q(Z|F_m) \sim \mathcal{N}(\mu, \sigma^2)\) → 潜在表示 \(Z = \mu + R\) → 物理引导扩散: 在去噪过程中注入热传导/结构保持/物理一致性三种约束 → 融合图像
关键设计¶
- 变分瓶颈编码器(VBE)+ 最优传输:
- 做什么:将两种模态对齐后编码为紧凑的潜在表示
- 核心思路:最优传输映射 \(T^*\) 将红外分布对齐到可见光分布(Sinkhorn 散度最小化)。VBE 损失 \(\mathcal{L}_{VBE} = -\mathbb{E}[\log p(Y|Z)] - \alpha\mathbb{E}[\log p(X'|Z)] + \beta D_{KL}[q(Z|X',Y) \| p(Z)]\)——重建两种模态 + KL 正则化。多尺度可学习掩码 \(M_s = \sigma(w_s)\) 控制不同尺度的信息筛选
-
设计动机:Theorem 1 证明互信息下界与 Wasserstein 距离相关——最优传输对齐可以收紧互信息界,使编码器保留更多任务相关信息
-
物理引导条件扩散模型:
- 做什么:在扩散去噪过程中注入三种物理约束
- 核心思路:(a) 热传导 \(\Phi_{heat} = \hat{z}_0 + \lambda_{heat}(t) \nabla^2 \hat{z}_0\)——拉普拉斯算子平滑热分布;(b) 结构保持 \(\Phi_{stru} = \hat{z}_0^{heat} + \lambda_{stru}(t)(G_{max} - G_{\hat{z}_0}) M_{stru}\)——梯度增强保护可见光边缘;(c) 物理一致性 \(\Phi_{con} = \hat{z}_0^{stru} + \lambda_{con}(t)(w_{ir} X M_{heat} + w_{vis} Y M_{stru})\)——融合原始模态信息
-
设计动机:时变引导系数 \(\lambda_i(t) = \lambda_i^0 e^{-\gamma t}\)——早期强引导(粗结构),后期弱引导(细节由模型自主生成)。物理约束替代了不可解释的损失权重
-
多尺度可学习掩码:
- 做什么:自适应选择不同尺度的模态信息
- 核心思路:\(F_m = \sigma(\theta_s \cdot (M_s \odot F_s))\),\(M_s = \sigma(w_s)\) 是可学习参数
- 设计动机:不同区域需要不同尺度的信息——热目标区域用粗尺度红外特征,纹理区域用细尺度可见光特征
损失函数 / 训练策略¶
- VBE 损失 = 双模态重建 + KL 正则
- 修正的扩散去噪过程 \(p_\theta^{phys}(z_{t-1}|z_t) \approx \mathcal{N}(\mu_\theta + \Delta\mu_{phys}, \Sigma_\theta)\)
- DDIM 采样加速
实验关键数据¶
主实验(MSRS 数据集)¶
| 指标 | 次优方法 | HCLFuse | 提升 |
|---|---|---|---|
| AG (梯度) | 3.78 | 6.44 | +69.87% |
| SF (空间频率) | 12.84 | 17.90 | +39.41% |
| DF (离散频率) | 4.61 | 7.64 | +65.56% |
| QSF (四元数) | 0.47 | 0.54 | +14.89% |
消融实验¶
| 配置 | 影响 |
|---|---|
| 去掉物理引导 (W/O TPG) | 生成不稳定 |
| 去掉 VBE | 视觉伪影(建筑/天空) |
| 去掉最优传输 | 所有指标急剧下降 |
| 去掉 DDIM | 质量退化 |
| 完整模型 | 最优 |
关键发现¶
- 最优传输对齐是最关键组件——去掉后所有指标急剧下降
- 物理引导使生成过程更稳定——无引导时扩散模型容易产生伪影
- 在 TNO 和 FMB 数据集上也一致改善,泛化性好
- 下游语义分割也有提升,说明融合质量直接影响高层任务
亮点与洞察¶
- 理论基础扎实:信息瓶颈 + 最优传输不是简单组合,Theorem 1 严格论证了 OT 对齐如何收紧互信息界,为融合的信息选择提供了理论指导
- 物理约束替代超参数:传统方法需要手动调节红外/可见光权重,物理引导(热传导/结构保持)提供了更可解释的自动化方案
- 时变引导系数设计合理:指数衰减使早期保大结构、后期保细节,与扩散模型的粗到细生成过程自然匹配
局限性 / 可改进方向¶
- 扩散过程计算开销大,难以实时应用
- 需要红外-可见光对齐的图像对
- 物理约束假设了特定的热传导模型,可能不适用于所有场景
- 未在完全未对齐或损坏的图像对上验证
相关工作与启发¶
- vs DiffFuse: 基于扩散的融合但无物理约束,容易产生不自然的伪影
- vs CDDFuse: 基于去相关策略的融合,信息选择不如信息瓶颈理论优雅
- vs TarDAL: 检测驱动的融合,HCLFuse 的物理引导更通用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 信息瓶颈+最优传输+物理引导扩散的三重创新
- 实验充分度: ⭐⭐⭐⭐ 多数据集+消融+下游任务
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨
- 价值: ⭐⭐⭐⭐ 为生成式融合提供了理论可解释的新范式