Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared¶

会议: CVPR 2026
arXiv: 2603.08018
代码: https://github.com/harukiv/DCMIF (有)
领域: 自监督学习
关键词: 红外-可见光融合, 缺失模态, 卷积字典学习, 系数域推理, 大语言模型先验

一句话总结¶

提出首个在系数域（而非像素域）进行红外缺失条件下跨模态融合的框架：通过共享卷积字典建立 IR-VIS 统一原子空间，在系数域完成 VIS→IR 推理和自适应融合，配合冻结 LLM 提供弱语义先验进行热信息补全，在仅输入可见光图像的条件下达到接近双模态融合方法的性能。

研究背景与动机¶

红外-可见光（IR-VIS）图像融合对于监控、机器人和自动驾驶系统的鲁棒感知至关重要。现有方法（CNN、CNN-Transformer、GAN、扩散模型）都假设训练和推理时两种模态都可用。然而现实中红外模态经常缺失（如测试时仅有可见光相机）。

当红外缺失时，直观方案是在像素空间生成伪红外图像再融合。但像素空间生成存在严重问题：控制性差、可解释性弱、容易产生幻觉伪影和结构细节丢失。

核心矛盾：如何在红外缺失时稳定地恢复热信息并进行可解释的融合？本文的切入角度是：不在像素空间生成红外，而是将两种模态映射到统一的字典-系数空间，在系数域完成推理和融合，从而锚定数据一致性和先验约束在原子-系数层面。

方法详解¶

整体框架¶

完整 pipeline 为闭环的 编码 → 转移 → 融合 → 重建： 1. JSRL（联合共享字典表示学习）：学习 IR 和 VIS 共享的卷积字典 \(\mathbf{D}\)，将两种模态映射到统一原子空间 2. VGII（可见光引导红外推理）：在系数域将 VIS 系数转移为伪 IR 系数，并用冻结 LLM 提供弱语义先验进行单步闭环精炼 3. AFRI（自适应表示推理融合）：在原子级别通过窗口注意力和卷积混合融合 VIS 与推理 IR 系数，用共享字典重建最终图像

关键设计¶

JSRL - 联合共享字典表示学习:
- 功能：学习一个跨模态共享字典 \(\mathbf{D} \in \mathbb{R}^{B \times k \times k}\)，使 VIS 和 IR 都能被表示为 \(\mathbf{I} = \mathbf{D} * \mathbf{S}\)
- 核心思路：联合最小化两模态重建误差 + 系数先验 + 字典正则化： \(\min_{\mathbf{D},\mathbf{S}_{vis},\mathbf{S}_{ir}} \frac{1}{2}\|\mathbf{I}_{vis} - \mathbf{D}*\mathbf{S}_{vis}\|_F^2 + \frac{1}{2}\|\mathbf{I}_{ir} - \mathbf{D}*\mathbf{S}_{ir}\|_F^2 + \lambda_1\varphi_1(\mathbf{S}_{vis}) + \lambda_2\varphi_2(\mathbf{S}_{ir}) + \lambda_3\phi(\mathbf{D})\)
- 通过模型驱动展开（model-driven unfolding）实现：交替进行数据一致性步骤（频域 Sherman-Morrison 公式求解）和近端更新步骤（CoeNet / DicNet 可学习代理）
- 架构：N 个级联 IV-DLB（红外-可见字典学习块），每块含两个系数求解器 + 一个字典求解器，超参由 HypNet 自适应预测
- 设计动机：共享字典建立了两种模态之间的原子级对应关系，为后续系数域推理提供可解释的统一表示空间
VGII - 可见光引导红外推理:
- 功能：从 VIS 系数 \(\tilde{\mathbf{S}}_{vis}\) 推理伪 IR 系数 \(\mathbf{S}_{p\_ir}\)
- 核心思路：
  - 用冻结的 REN（表示编码网络，包含预训练 HeadNet + CSB + CoeNet）将 VIS 编码为系数
  - RIN（表示推理网络，encoder-decoder + multi-head attention）将 VIS 系数映射到伪 IR 系数
  - LLM 弱语义先验精炼：重建初始伪红外 \(\mathbf{I}_{p\_ir}^{(0)}\)，将 {VIS, 伪IR} 图像对 + 任务描述作为 prompt 输入冻结 LLM，提取文本特征 \(\mathbf{F}_{text}\)，通过 FiLM（Feature-wise Linear Modulation）调制系数：\(\mathbf{S}_{fm} = \gamma \odot \tilde{\mathbf{S}}_{vis} + \beta\)，再次通过 RIN 得到精炼系数
- 损失函数：\(\ell_{inf} = \ell_{int} + \ell_{reg} + \ell_{grad}\)
  - 一致性损失 \(\ell_{int}\)：伪 IR 与真实 IR 在图像域和系数域的 L1 距离
  - 热正则化 \(\ell_{reg}\)：用归一化权重图强调热区域对齐
  - 梯度损失 \(\ell_{grad}\)：保持边缘一致性 \(\|\nabla\mathbf{I}_{p\_ir} - \nabla\mathbf{I}_{vis}\|_1\)
- 设计动机：LLM 不生成像素，仅作为"语义评审员"提供通道级线性调制，轻量且可控；在系数域而非像素域推理，继承字典的可解释性
AFRI - 自适应融合:
- 功能：在原子级别融合 VIS 系数和推理 IR 系数，重建最终图像
- 核心思路：RFN（推理融合网络）通过两个级联的 Convolution-Attention Fusion 块，学习隐式原子级门控权重 \((\mathbf{W}_{vis}, \mathbf{W}_{p\_ir})\)：\(\mathbf{S}_f = \mathbf{W}_{vis} \odot \tilde{\mathbf{S}}_{vis} + \mathbf{W}_{p\_ir} \odot \mathbf{S}_{p\_ir}^{(1)}\)
- 融合损失：\(\ell_f = \|\mathbf{I}_f - \max(\mathbf{I}_{p\_ir}, \mathbf{I}_{vis})\|_1 + \|\nabla\mathbf{I}_f - \max(\nabla\mathbf{I}_{p\_ir}, \nabla\mathbf{I}_{vis})\|_1\)
- 设计动机：逐元素 max 操作鼓励融合结果继承 IR 的热强度峰值和 VIS 的锐利结构边缘；门控在系数域操作，结构边缘的原子倾向 VIS，热语义的原子倾向 IR

损失函数 / 训练策略¶

三模块顺序训练：JSRL → VGII → AFRI。JSRL 在 MSRS 上训 1000 epoch，学到的字典可迁移到其他数据集；VGII 和 AFRI 各训 10 epoch。Adam 优化器，字典卷积核 5×5。两块 RTX 4090。

实验关键数据¶

主实验¶

方法	输入	MSRS AG↑	MSRS EN↑	FLIR AG↑	FLIR EN↑	KAIST AG↑
CDDFuse	IR+VIS	4.818	7.321	5.079	6.766	3.167
EMMA	IR+VIS	4.913	7.333	3.796	6.489	3.083
DCEvo	IR+VIS	4.858	7.298	4.585	6.763	3.229
Ours	仅VIS	5.037	7.188	4.518	6.639	4.414

关键发现：仅用可见光输入的本文方法在 AG（平均梯度）等指标上甚至超越了部分需要双模态输入的 SOTA 融合方法。

下游任务（M3FD 目标检测 YOLOv5）：本文 mAP=0.948 vs SAGE(双模态)=0.956，差距极小。下游任务（FMB 语义分割 SegFormer-b5）：本文 mIoU=62.939 vs LRRNet(双模态)=62.942，基本持平。

消融实验¶

配置	Dictionary	LLM	AG↑	CE↓	EI↑	EN↑	SF↑
Model I（基线）	✗	✗	3.320	1.452	45.531	6.058	9.238
Model II	✓	✗	4.363	1.046	48.351	6.578	11.936
Model III	✗	✓	4.256	0.619	48.154	6.423	11.175
Ours	✓	✓	4.518	0.596	48.784	6.639	12.554

关键发现¶

共享字典对性能提升贡献最大（Model I→II：AG +31%），验证了系数域范式的有效性
LLM 调制提供额外的语义增强（CE 从 1.046 降到 0.596），特别是在亮度和对比度方面
两者互补，组合效果最佳
仅用 VIS 输入即可达到双模态方法的 90%+ 性能水平

亮点与洞察¶

范式创新：首次提出系数域推理-融合方案处理红外缺失问题，避免像素空间生成的不稳定性
LLM 的巧妙使用：不用 LLM 生成图像，仅用作语义级别的 FiLM 调制，极其轻量且有效
训练极简：无需对抗训练或扩散采样，VGII 和 AFRI 各仅需 10 epoch
可解释性强：所有计算在统一原子空间进行，字典原子提供直观的物理意义
闭环设计：编码→推理→融合→重建全部在同一字典-系数空间中，保证表示一致性

局限与展望¶

共享字典在 MSRS 上训练后直接迁移，对域差异大的场景（如医疗红外）可能需要重训
LLM 处理增加了推理延迟，实时场景需考虑效率
系数域推理的精度上限受字典容量限制，超大分辨率或细粒度热细节可能损失
仅验证了红外缺失场景，未探讨可见光缺失或其他多模态组合
方法假设 VIS 图像中包含足够的结构线索推理热信息，全黑场景可能失效

评分¶

新颖性: ⭐⭐⭐⭐⭐ 系数域推理-融合范式+LLM弱先验的组合在该领域完全原创
实验充分度: ⭐⭐⭐⭐ 三个融合数据集+两个下游任务+完整消融，但缺少cross-dataset泛化分析
写作质量: ⭐⭐⭐⭐ 公式推导严谨，框架图清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 首次解决红外缺失融合，有实际应用前景，字典范式可推广