MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics¶
会议: AAAI 2026
arXiv: 2511.12525
代码: https://github.com/doudou845133/MdaIF
领域: 图像融合 / 恶劣天气退化
关键词: 红外可见光融合, 退化感知, 混合专家, 视觉语言模型, 通道注意力
一句话总结¶
提出 MdaIF 框架,利用视觉语言模型(VLM)提取退化感知语义先验来引导混合专家(MoE)路由和通道注意力调制,实现无需退化类型标注的一站式多退化场景红外-可见光图像融合。
研究背景与动机¶
- 领域现状:红外-可见光图像融合(IVF)旨在整合红外热辐射信息与可见光纹理细节。现有方法从 CNN/GAN 到 Transformer、扩散模型不断演进,但大多假设可见光图像质量良好。
- 现有痛点:
- 恶劣天气下(雾、雨、雪),可见光图像严重退化,直接融合效果差
- 级联方案(先修复再融合)导致特征错位和误差累积
- 现有退化感知融合方法(Text-IF、MMAIF)依赖固定的退化类型标注作为 prompt,且使用单一固定网络处理所有退化条件
- 核心矛盾:不同退化类型(雾的微米级水滴、雨的毫米级雨滴、雪的冰晶)对应本质不同的大气散射模型,固定网络架构无法有效捕获这种异质性退化模式。例如对去雾有效的透射图在去雨场景中失效。
- 本文要解决什么? 在不依赖退化类型真值标签的条件下,自适应处理多种恶劣天气下的红外-退化可见光图像融合。
- 切入角度:利用 VLM 的场景理解能力自动识别退化类型并提取语义先验,在此引导下通过 MoE 选择合适的专家网络处理不同退化。
- 核心idea一句话:VLM 提供退化感知语义先验 → 语义先验通过原型分解指导通道注意力调制 → 调制后的特征与语义先验共同引导 MoE 路由,选择对应退化类型的专家进行融合。
方法详解¶
整体框架¶
MdaIF 由四个核心模块组成:
- 编码器(Encoder):独立编码红外和退化可见光图像
- 退化感知语义先验提取器(DSPE):基于 BLIP-2 VLM 从退化可见光图像中提取语义先验
- 退化感知通道注意力模块(DCAM):利用语义先验进行退化原型分解和通道调制
- 退化感知混合专家(DMoE):语义先验引导的专家路由 + 多专家融合
关键设计¶
- 退化感知语义先验提取器(DSPE):
- 使用预训练 BLIP-2 OPT 2.7B,以 VQA 模式将退化可见光图像和开放式问题 prompt 输入
- 提取最后隐层特征 \(S_{org} \in \mathbb{R}^{S \times C_{org}}\) 作为原始语义先验
- 通过 MLP + LayerNorm 压缩维度:\(S_{embed} = \mathcal{N}_{layer}(\Phi_m^I(S_{org}))\)
- 再通过自注意力机制重新加权 token 重要性,得到精炼后的语义先验 \(S_{prior}\)
- 语义先验包含两部分信息:\(S_{weather}\)(天气退化知识)和 \(S_{scene}\)(场景特征)
-
关键区别:不将 VLM 仅用作退化分类器,而是充分利用其对场景的深层语义理解
-
退化感知通道注意力模块(DCAM):
- 将编码后的红外和可见光特征沿通道拼接:\(F_{in} = \text{Cat}(F_{vi}, F_{ir})\)
- 退化原型分解:将语义先验通过 MLP→Sigmoid 映射为 K 个退化原型的激活分数 \(s_K \in \mathbb{R}^K\)
- 每个退化原型 \(k_i \in \mathbb{R}^C\) 编码该原型在各通道上的响应强度,原型矩阵 \(W_{proto} \in \mathbb{R}^{K \times C}\) 以正交归一化初始化
- 通道权重计算:\(w_c = \sigma(\sum_{i=1}^K s_{K_i} \cdot k_i)\)
- 最终调制:\(F_{dcam} = \mathcal{N}_{layer}(F_{in}) \odot \sigma(s_K W_{proto}) + F_{in}\)(残差连接)
-
设计动机:不同退化类型激活不同原型组合,不同原型偏好不同通道模式,实现退化感知的自适应特征增强
-
退化感知混合专家(DMoE):
- 多个专家网络分别针对不同退化条件特化
- 路由策略:将调制后的特征 \(F_{dcam}\) 与语义先验 \(S_{prior}\) 交互,建立任务特定的路由机制
- \(S_{weather}\) 增强可见光图像中的退化纹理特征,\(S_{scene}\) 增强红外和可见光中的目标信息
- 避免了专家负载不均衡问题(一个专家承担多个任务而其他闲置)
损失函数 / 训练策略¶
- 联合优化退化修复和多模态融合(一站式方案,非级联方案)
- VLM(BLIP-2)参数冻结,仅训练编码器、DCAM、MoE 和解码器
- 退化原型矩阵正交归一化初始化并设为可学习参数
实验关键数据¶
主实验¶
MSRS 数据集上一站式方法 vs 级联方法(Strategy I: 各退化独立模型 / Strategy II: 全退化统一模型):
MdaIF 在所有退化条件(Haze/Rain/Snow)上均超越所有级联组合方案:
| 方法 | 雾 PSNR↑ | 雾 SSIM↑ | 雨 PSNR↑ | 雨 SSIM↑ | 雪 PSNR↑ | 雪 SSIM↑ |
|---|---|---|---|---|---|---|
| DehazeFormer+SegMiF | 17.051 | 1.046 | — | — | — | — |
| DRSformer+SegMiF | — | — | 17.308 | 0.859 | — | — |
| SnowFormer+SegMiF | — | — | — | — | 16.007 | 0.616 |
| SAGE (最强级联) | 17.260 | 1.231 | 17.964 | 0.993 | 17.267 | 0.897 |
| MdaIF (Ours) | 18.325 | 1.302 | 18.079 | 1.260 | 17.528 | 1.245 |
MdaIF 在 PSNR 上平均提升约 0.6-1.0 dB,SSIM 提升显著。
消融实验¶
| 退化原型分析 | 观察 |
|---|---|
| 雾场景 | 原型 1 激活最高(~40%),原型 2/3 较低 |
| 雨场景 | 原型 2 激活最高,与雾差异明显 |
| 雪场景 | 原型 3 激活最高,三种退化间有潜在关联 |
- 各原型学到了不同的通道偏好模式(通过雷达图可视化验证),增强了混合表达能力
关键发现¶
- 一站式方案显著优于级联方案,证明联合优化退化修复+融合能有效避免误差累积
- VLM 提取的语义先验功能不只是退化分类,更提供了场景层面的深层理解,增强了特征交互
- 退化原型分解机制使模型在不同天气条件下展现出差异化但又有关联的激活模式
亮点与洞察¶
- "不依赖退化类型标注"是与 Text-IF、MMAIF 等工作的关键区别——利用 VLM 的理解能力替代人工标注,提升了实用性
- 退化原型分解将模糊的"退化类型"转化为可解释的通道响应模式,比直接用退化标签做 one-hot 路由更灵活
- MoE 的引入比单一网络更适合处理异质性退化,每个专家可以专注于特定散射模型的特征模式
局限性 / 可改进方向¶
- 仅考虑雾、雨、雪三种天气退化,未涵盖低光照、过曝等其他常见退化
- BLIP-2 OPT 2.7B 较大,对推理速度和部署有影响
- 退化原型数量 K 为超参数,未讨论如何自适应确定
- 仅在合成退化数据集上验证,真实场景中退化类型混合(如雾+雨)的情况未讨论
- VLM 的 VQA 问答 prompt 设计可能影响先验质量,但未深入分析不同 prompt 的影响
相关工作与启发¶
- Text-IF (Yi et al. 2024):基于 CLIP 的 prompt 引导融合,但仅处理低光照/过曝,且依赖真值退化标签
- MMAIF (Cao et al. 2025):扩散模型 + Flan-T5 LLM,同样依赖固定 prompt
- SegFormer (Xie et al. 2021):本文编码器架构的基础
- 启发:VLM 作为"退化感知传感器"的角色可扩展到更多低级视觉任务(去噪、超分辨率、去模糊的统一模型)
评分¶
- 新颖性: ⭐⭐⭐⭐ VLM→退化原型→MoE 路由的管线设计新颖,摆脱了退化标注依赖
- 实验充分度: ⭐⭐⭐⭐ 多数据集 + 多级联方案对比 + 退化原型可视化
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法动机阐述充分
- 价值: ⭐⭐⭐⭐ 一站式退化感知融合是实际应用的刚需方向