Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared¶
会议: CVPR 2026
arXiv: 2603.08018
代码: https://github.com/harukiv/DCMIF (有)
领域: 自监督学习
关键词: 红外-可见光融合, 缺失模态, 卷积字典学习, 系数域推理, 大语言模型先验
一句话总结¶
提出首个在系数域(而非像素域)进行红外缺失条件下跨模态融合的框架:通过共享卷积字典建立 IR-VIS 统一原子空间,在系数域完成 VIS→IR 推理和自适应融合,配合冻结 LLM 提供弱语义先验进行热信息补全,在仅输入可见光图像的条件下达到接近双模态融合方法的性能。
研究背景与动机¶
红外-可见光(IR-VIS)图像融合对于监控、机器人和自动驾驶系统的鲁棒感知至关重要。现有方法(CNN、CNN-Transformer、GAN、扩散模型)都假设训练和推理时两种模态都可用。然而现实中红外模态经常缺失(如测试时仅有可见光相机)。
当红外缺失时,直观方案是在像素空间生成伪红外图像再融合。但像素空间生成存在严重问题:控制性差、可解释性弱、容易产生幻觉伪影和结构细节丢失。
核心矛盾:如何在红外缺失时稳定地恢复热信息并进行可解释的融合?本文的切入角度是:不在像素空间生成红外,而是将两种模态映射到统一的字典-系数空间,在系数域完成推理和融合,从而锚定数据一致性和先验约束在原子-系数层面。
方法详解¶
整体框架¶
完整 pipeline 为闭环的 编码 → 转移 → 融合 → 重建: 1. JSRL(联合共享字典表示学习):学习 IR 和 VIS 共享的卷积字典 \(\mathbf{D}\),将两种模态映射到统一原子空间 2. VGII(可见光引导红外推理):在系数域将 VIS 系数转移为伪 IR 系数,并用冻结 LLM 提供弱语义先验进行单步闭环精炼 3. AFRI(自适应表示推理融合):在原子级别通过窗口注意力和卷积混合融合 VIS 与推理 IR 系数,用共享字典重建最终图像
关键设计¶
-
JSRL - 联合共享字典表示学习:
- 功能:学习一个跨模态共享字典 \(\mathbf{D} \in \mathbb{R}^{B \times k \times k}\),使 VIS 和 IR 都能被表示为 \(\mathbf{I} = \mathbf{D} * \mathbf{S}\)
- 核心思路:联合最小化两模态重建误差 + 系数先验 + 字典正则化: \(\min_{\mathbf{D},\mathbf{S}_{vis},\mathbf{S}_{ir}} \frac{1}{2}\|\mathbf{I}_{vis} - \mathbf{D}*\mathbf{S}_{vis}\|_F^2 + \frac{1}{2}\|\mathbf{I}_{ir} - \mathbf{D}*\mathbf{S}_{ir}\|_F^2 + \lambda_1\varphi_1(\mathbf{S}_{vis}) + \lambda_2\varphi_2(\mathbf{S}_{ir}) + \lambda_3\phi(\mathbf{D})\)
- 通过模型驱动展开(model-driven unfolding)实现:交替进行数据一致性步骤(频域 Sherman-Morrison 公式求解)和近端更新步骤(CoeNet / DicNet 可学习代理)
- 架构:N 个级联 IV-DLB(红外-可见字典学习块),每块含两个系数求解器 + 一个字典求解器,超参由 HypNet 自适应预测
- 设计动机:共享字典建立了两种模态之间的原子级对应关系,为后续系数域推理提供可解释的统一表示空间
-
VGII - 可见光引导红外推理:
- 功能:从 VIS 系数 \(\tilde{\mathbf{S}}_{vis}\) 推理伪 IR 系数 \(\mathbf{S}_{p\_ir}\)
- 核心思路:
- 用冻结的 REN(表示编码网络,包含预训练 HeadNet + CSB + CoeNet)将 VIS 编码为系数
- RIN(表示推理网络,encoder-decoder + multi-head attention)将 VIS 系数映射到伪 IR 系数
- LLM 弱语义先验精炼:重建初始伪红外 \(\mathbf{I}_{p\_ir}^{(0)}\),将 {VIS, 伪IR} 图像对 + 任务描述作为 prompt 输入冻结 LLM,提取文本特征 \(\mathbf{F}_{text}\),通过 FiLM(Feature-wise Linear Modulation)调制系数:\(\mathbf{S}_{fm} = \gamma \odot \tilde{\mathbf{S}}_{vis} + \beta\),再次通过 RIN 得到精炼系数
- 损失函数:\(\ell_{inf} = \ell_{int} + \ell_{reg} + \ell_{grad}\)
- 一致性损失 \(\ell_{int}\):伪 IR 与真实 IR 在图像域和系数域的 L1 距离
- 热正则化 \(\ell_{reg}\):用归一化权重图强调热区域对齐
- 梯度损失 \(\ell_{grad}\):保持边缘一致性 \(\|\nabla\mathbf{I}_{p\_ir} - \nabla\mathbf{I}_{vis}\|_1\)
- 设计动机:LLM 不生成像素,仅作为"语义评审员"提供通道级线性调制,轻量且可控;在系数域而非像素域推理,继承字典的可解释性
-
AFRI - 自适应融合:
- 功能:在原子级别融合 VIS 系数和推理 IR 系数,重建最终图像
- 核心思路:RFN(推理融合网络)通过两个级联的 Convolution-Attention Fusion 块,学习隐式原子级门控权重 \((\mathbf{W}_{vis}, \mathbf{W}_{p\_ir})\):\(\mathbf{S}_f = \mathbf{W}_{vis} \odot \tilde{\mathbf{S}}_{vis} + \mathbf{W}_{p\_ir} \odot \mathbf{S}_{p\_ir}^{(1)}\)
- 融合损失:\(\ell_f = \|\mathbf{I}_f - \max(\mathbf{I}_{p\_ir}, \mathbf{I}_{vis})\|_1 + \|\nabla\mathbf{I}_f - \max(\nabla\mathbf{I}_{p\_ir}, \nabla\mathbf{I}_{vis})\|_1\)
- 设计动机:逐元素 max 操作鼓励融合结果继承 IR 的热强度峰值和 VIS 的锐利结构边缘;门控在系数域操作,结构边缘的原子倾向 VIS,热语义的原子倾向 IR
损失函数 / 训练策略¶
三模块顺序训练:JSRL → VGII → AFRI。JSRL 在 MSRS 上训 1000 epoch,学到的字典可迁移到其他数据集;VGII 和 AFRI 各训 10 epoch。Adam 优化器,字典卷积核 5×5。两块 RTX 4090。
实验关键数据¶
主实验¶
| 方法 | 输入 | MSRS AG↑ | MSRS EN↑ | FLIR AG↑ | FLIR EN↑ | KAIST AG↑ |
|---|---|---|---|---|---|---|
| CDDFuse | IR+VIS | 4.818 | 7.321 | 5.079 | 6.766 | 3.167 |
| EMMA | IR+VIS | 4.913 | 7.333 | 3.796 | 6.489 | 3.083 |
| DCEvo | IR+VIS | 4.858 | 7.298 | 4.585 | 6.763 | 3.229 |
| Ours | 仅VIS | 5.037 | 7.188 | 4.518 | 6.639 | 4.414 |
关键发现:仅用可见光输入的本文方法在 AG(平均梯度)等指标上甚至超越了部分需要双模态输入的 SOTA 融合方法。
下游任务(M3FD 目标检测 YOLOv5):本文 mAP=0.948 vs SAGE(双模态)=0.956,差距极小。 下游任务(FMB 语义分割 SegFormer-b5):本文 mIoU=62.939 vs LRRNet(双模态)=62.942,基本持平。
消融实验¶
| 配置 | Dictionary | LLM | AG↑ | CE↓ | EI↑ | EN↑ | SF↑ |
|---|---|---|---|---|---|---|---|
| Model I(基线) | ✗ | ✗ | 3.320 | 1.452 | 45.531 | 6.058 | 9.238 |
| Model II | ✓ | ✗ | 4.363 | 1.046 | 48.351 | 6.578 | 11.936 |
| Model III | ✗ | ✓ | 4.256 | 0.619 | 48.154 | 6.423 | 11.175 |
| Ours | ✓ | ✓ | 4.518 | 0.596 | 48.784 | 6.639 | 12.554 |
关键发现¶
- 共享字典对性能提升贡献最大(Model I→II:AG +31%),验证了系数域范式的有效性
- LLM 调制提供额外的语义增强(CE 从 1.046 降到 0.596),特别是在亮度和对比度方面
- 两者互补,组合效果最佳
- 仅用 VIS 输入即可达到双模态方法的 90%+ 性能水平
亮点与洞察¶
- 范式创新:首次提出系数域推理-融合方案处理红外缺失问题,避免像素空间生成的不稳定性
- LLM 的巧妙使用:不用 LLM 生成图像,仅用作语义级别的 FiLM 调制,极其轻量且有效
- 训练极简:无需对抗训练或扩散采样,VGII 和 AFRI 各仅需 10 epoch
- 可解释性强:所有计算在统一原子空间进行,字典原子提供直观的物理意义
- 闭环设计:编码→推理→融合→重建全部在同一字典-系数空间中,保证表示一致性
局限与展望¶
- 共享字典在 MSRS 上训练后直接迁移,对域差异大的场景(如医疗红外)可能需要重训
- LLM 处理增加了推理延迟,实时场景需考虑效率
- 系数域推理的精度上限受字典容量限制,超大分辨率或细粒度热细节可能损失
- 仅验证了红外缺失场景,未探讨可见光缺失或其他多模态组合
- 方法假设 VIS 图像中包含足够的结构线索推理热信息,全黑场景可能失效
相关工作与启发¶
- 与 CDDFuse、EMMA 等双模态 SOTA 的关键区别:本文仅需单模态输入
- 模型驱动展开(DKSVD, Learned-CSC)为字典学习提供了理论基础
- FiLM 调制(源自条件生成)被创新性地用于 LLM 语义→系数空间调制
- 启发:系数域操作的可解释性范式可推广到其他缺失模态任务(如 MRI-CT 融合中模态缺失)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 系数域推理-融合范式+LLM弱先验的组合在该领域完全原创
- 实验充分度: ⭐⭐⭐⭐ 三个融合数据集+两个下游任务+完整消融,但缺少cross-dataset泛化分析
- 写作质量: ⭐⭐⭐⭐ 公式推导严谨,框架图清晰,动机阐述充分
- 价值: ⭐⭐⭐⭐ 首次解决红外缺失融合,有实际应用前景,字典范式可推广
相关论文¶
- [CVPR 2026] Neurodynamics-Driven Coupled Neural P Systems for Multi-Focus Image Fusion
- [ICLR 2026] Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings
- [CVPR 2026] On the Possible Detectability of Image-in-Image Steganography
- [CVPR 2026] Geometry-Guided Camera Motion Understanding in VideoLLMs
- [CVPR 2026] FINER: MLLMs Hallucinate under Fine-grained Negative Queries