UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation¶

日期: 2026-03-15
arXiv: 2603.14214
代码: UniFusion
领域: 多模态VLM / 图像生成
关键词: image fusion, DINOv3, bilevel optimization, reconstruction alignment, cross-task generalization

一句话总结¶

提出 UniFusion，利用 DINOv3 语义先验 + reconstruction-alignment 机制 + bilevel optimization 策略，构建跨任务统一图像融合框架，在红外-可见光/医学/多曝光/多焦点四大融合任务上全面超越 TC-MoA 等 SOTA。

研究背景与动机¶

领域现状: 图像融合（多模态、多曝光、多焦点、医学）广泛应用于自动驾驶、医疗等场景。大多数方法针对特定任务设计，泛化能力差。TC-MoA 等通用融合方法尝试用 task-specific routing 统一多任务，但仍存在限制。
现有痛点: (a) 缺乏原则性的模态一致特征提取——异构信号难以在共享空间中鲁棒编码；(b) 深层传播中源图像关键信息退化（information degradation），导致融合质量下降。
核心矛盾: 要在一个模型中处理多种融合任务，需要既能提取模态一致特征（泛化性），又能保留每个源图像的独特信息（保真度）。
切入角度: DINOv3 是强大的自监督视觉模型，能提供模态一致的语义表示；用 reconstruction 约束确保编码特征能还原原图；用 bilevel optimization 平衡融合和重建。
核心 idea: DINOv3 冻结 backbone 做特征提取 → lightweight adapter 做模态适配 → cross-attention 做融合 → reconstruction 分支做信息保留约束 → bilevel optimization 同步优化。

方法详解¶

整体框架¶

双通道输入（源图像 A/B）→ 冻结的 DINOv3 backbone 提取多层语义特征 → lightweight adapter 进行模态特定适配 → cross-attention 模块融合 → 输出融合图像。同时，adapter 特征经 reconstruction 分支还原原图做自监督约束。

关键设计¶

DINOv3 Semantic Prior Adaptation:
- 做什么：用预训练的 DINOv3 ViT 做通用特征提取
- 核心思路：冻结 DINOv3 backbone，提取 4 个中间层的特征 \(f^{(l_2)}, f^{(l_5)}, f^{(l_8)}, f^{(l_{11})}\)，通过 hierarchical adapter 做渐进式特征校准和上采样
- 设计动机：DINOv3 在大规模自然图像上预训练，具备 object-centric 和长程依赖建模能力，是理想的跨模态通用 backbone。adapter 弥补了预训练域和特定模态之间的 gap
Reconstruction Alignment:
- 做什么：确保编码特征保留足够的源图像信息
- 核心思路：每个 adapter 的输出 \(\hat{\mathbf{F}}_m\) 经轻量 Transformer blocks + projection head 重建原图 \(\bar{I}_m = R_m(\hat{\mathbf{F}}_m)\)，用 L1 loss 监督
- 设计动机：直接融合可能导致模态特有信息丢失（如红外的热辐射、可见光的纹理）。重建约束迫使编码保留完整信息，比 pixel-level 融合 loss 更能保持语义一致性
Bilevel Optimization:
- 做什么：解耦并联合优化重建和融合目标
- 核心思路：inner loop 快速更新 adapter+reconstruction 参数 \(\phi\)（学好特征表示）；outer loop 慢速更新 fusion 参数 \(\theta\)（学好融合策略）。学习率 \(\eta_L > \eta_U\)，加 EMA 稳定
- 设计动机：重建和融合有耦合关系——如果 joint optimize 可能互相干扰。bilevel 让特征表示先稳定下来，再基于好的特征学融合策略

损失函数¶

Inner level: \(\mathcal{L}_\text{rec}\) (L1 reconstruction loss)
Outer level: \(\mathcal{L}_\text{fuse}\) (SwinFusion 的融合 loss)
交替优化，EMA momentum α 稳定 fusion 参数

实验关键数据¶

主实验（红外-可见光融合）¶

方法	MI↑	VIF↑	Q_abf↑	Q_y↑
CDDFuse	3.776	0.839	0.610	0.978
TC-MoA	3.466	0.870	0.636	0.983
UniFusion	4.268	0.899	0.637	0.982

消融实验¶

配置	MI (M3FD)	VIF (M3FD)
w/o Adapter	3.646	0.863
w/o DINOv3 encoder	3.681	0.879
w/o Reconstruction	3.846	0.870
w/o Bilevel Optimization	3.924	0.876
Full UniFusion	4.268	0.899

关键发现¶

每个组件都有明显贡献，其中 DINOv3 backbone 和 Adapter 的贡献最大（去掉后 MI 分别降 0.587 和 0.622）
在 MFIF（多焦点融合）上，即使没做任务特定微调也能排名前二，说明框架泛化性强
Medical image fusion 对比可视化显示，UniFusion 在保留 MRI 解剖结构的同时准确整合 PET 功能信息

亮点与洞察¶

DINOv3 做图像融合 backbone: 首次将自监督大视觉模型用于通用图像融合，提供了强大的模态一致语义先验
Bilevel optimization 解耦融合与重建: 避免两个目标互相干扰，是一种通用的多任务训练策略
四大融合任务统一: 一个模型处理 IVIF/MIF/MEF/MFF，且都达到 SOTA 或接近

局限性 / 可改进方向¶

DINOv3 backbone 冻结不训练，可能无法充分适配极端模态（如 SAR、热成像等非自然图像）
Bilevel optimization 的交替优化增加了训练复杂度和调参成本
只用了 10000 iterations 训练，对更大数据集和更复杂场景的 scalability 未验证
缺少推理速度对比——冻结的 DINOv3 ViT 可能推理较慢

评分¶

新颖性: ⭐⭐⭐⭐ DINOv3 + bilevel optimization 的组合新颖，但各组件（adapter、reconstruction loss）较常规
实验充分度: ⭐⭐⭐⭐⭐ 覆盖四大融合任务 + 完整消融 + 下游任务验证
写作质量: ⭐⭐⭐⭐ 图表丰富，动机清晰
价值: ⭐⭐⭐⭐ 统一融合框架的实用价值高