VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion¶
会议: CVPR 2026
arXiv: 2503.23359
代码: https://github.com/Linfeng-Tang/VideoFusion
领域: 图像融合 / 视频处理
关键词: multi-modal video fusion, infrared-visible, temporal consistency, cross-modal, dataset
一句话总结¶
构建M3SVD大规模红外-可见光视频数据集(220视频/15万帧),并提出VideoFusion框架,通过跨模态差分强化模块(CmDRM)+完整模态引导融合(CMGF)+双向时序共注意力(BiCAM)+变分一致性损失,实现时空协同的多模态视频融合,在融合质量和时序一致性上超越现有图像融合和视频融合方法。
背景与动机¶
多传感器融合研究主要集中在静态图像融合——大量方法用AE/CNN/GAN/Transformer/Diffusion做红外-可见光图像融合。但实际场景中传感器采集的是连续视频,逐帧应用图像融合方法会忽略帧间时序依赖,导致闪烁伪影和时序不一致。主要瓶颈是缺乏大规模时序对齐的多模态视频数据集(现有TNO仅3个视频/114帧,INO分辨率低,HDO质量差),且联合建模空间和时序依赖在统一框架中具有挑战性。
核心问题¶
如何在多模态视频融合中同时利用跨模态互补信息和帧间时序依赖,生成高质量且时序一致的融合视频?
方法详解¶
整体框架¶
编码器-解码器架构。编码阶段:3D卷积提取浅层时序特征 → 下采样+ResBlock+CmDRM提取多尺度增强特征 → CMGF在多尺度聚合跨模态上下文。解码阶段:Transformer增强块 → BiCAM建立跨帧时序依赖 → 融合解码器+模态分离模块分别重建融合视频和去退化的红外/可见光视频。
关键设计¶
-
跨模态差分强化模块 (CmDRM):核心思想是提取跨模态差分信息(互补而非冗余)。计算差分特征 \(\mathcal{F}_d^t = \mathcal{F}_{ir}^t - \mathcal{F}_{vi}^t\),将其作为Key/Value,原模态特征作Query做交叉注意力。然后通过可学习贡献度量自适应融合原始特征和差分强化特征,再经通道+空间注意力细化。
-
完整模态引导融合 (CMGF):用双模态特征之和 \(\mathcal{F}_c^t = \hat{\mathcal{F}}_{ir}^t + \hat{\mathcal{F}}_{vi}^t\) 作为公共Query,分别从红外和可见光特征中提取模态特定信息,实现引导式跨模态聚合。
-
双向时序共注意力 (BiCAM):当前帧特征作为共享Query,前一帧和后一帧特征分别生成K/V。计算前向/后向注意力后,通过 \(\mathcal{A}_{co} = \text{softmax}(\mathcal{A}_{t-1} * \mathcal{A}_{t+1})\) 融合双向时序动态,类似Swin Transformer的移动窗口机制——通过堆叠N个BiCAM间接获取长程时序上下文。
-
变分一致性损失 \(\mathcal{L}_{var}\):基于假设:静态背景的帧间变化应趋近零,动态物体的帧间变化应与源视频一致。对融合视频和去退化视频分别约束帧间差异与高质量源视频一致。
损失函数¶
- \(\mathcal{L}_{int}\): 强度损失,保持源视频中的显著目标
- \(\mathcal{L}_{grad}\): 梯度损失,保持纹理细节
- \(\mathcal{L}_{color}\): CbCr颜色损失,保持色彩保真
- \(\mathcal{L}_{sf}\): 场景保真损失,约束模态分离重建质量
- \(\mathcal{L}_{var}\): 变分一致性损失,抑制时序闪烁
实验关键数据¶
| M3SVD (退化) | MI↑ | SSIM↑ | VIF↑ | flowD↓ |
|---|---|---|---|---|
| U2Fusion | 2.490 | 0.600 | 0.439 | 6.547 |
| TemCoCo | 3.548 | 0.597 | 0.490 | 4.378 |
| VideoFusion | 4.008 | 0.632 | 0.526 | 3.294 |
| M3SVD (正常) | MI↑ | SSIM↑ | VIF↑ | flowD↓ |
|---|---|---|---|---|
| TC-MoA | 2.894 | 0.602 | 0.577 | 5.305 |
| TemCoCo | 3.548 | 0.597 | 0.490 | 4.379 |
| VideoFusion | 4.191 | 0.646 | 0.605 | 3.494 |
- 时序一致性:VideoFusion的flowD最低(3.294/3.494),逐帧方法如DDFM/LRRNet flowD > 6
- 效率:6.743M参数,267.78G FLOPs,0.067s/frame——与图像融合方法相当
- 下游任务:YOLO v11在VideoFusion结果上检测更多目标+更平滑轨迹
消融实验要点¶
- 去掉BiCAM:flowD从3.294→4.747,时序一致性显著恶化
- 去掉CmDRM:信息恢复能力下降,MI从4.008→3.557
- 去掉CMGF(替换为简单相加):SSIM从0.632→0.366,产生严重畸变
- 去掉\(\mathcal{L}_{var}\):flowD从3.294→6.056
- 去掉\(\mathcal{L}_{color}\):产生明显色彩畸变
亮点¶
- M3SVD数据集是重要贡献:220视频/15万帧/100场景/4种挑战场景——比之前最大的HDO(24视频/7500帧)大一个量级
- BiCAM的双向共注意力+堆叠设计简洁有效,无需光流或DCN做帧间对齐
- 变分一致性损失的static/dynamic分别建模假设合理
- 模态分离(unmixing)同时提供去退化结果——一个模型既做融合又做退化修复
- CmDRM用差分信息而非原始互模态信息做注意力,有效减少冗余
局限性 / 可改进方向¶
- 训练时T=7帧受GPU显存限制,大时序窗口可能进一步提升
- BiCAM只看相邻帧(±1),对快速运动场景可能不够——虽然堆叠可间接扩大感受野
- M3SVD的分辨率(640×480)和帧率(30fps)相对有限
- 仅验证红外-可见光融合,多光谱/SAR等其他模态未验证
- 定量评估指标(EN/MI/SD/SSIM/VIF)主要面向像素级质量,缺乏语义级评估
与相关工作的对比¶
- vs TemCoCo:TemCoCo用DCN做帧间补偿,在多模态数据上泛化性差;VideoFusion用注意力机制自适应聚合,MI/VIF/flowD全面优于
- vs RCVS:RCVS用手工特征做时序建模;VideoFusion端到端学习,融合质量和时序一致性更好
- vs 图像融合方法 (SwinFusion/DDFM等):逐帧应用导致时序闪烁(flowD > 5),VideoFusion显著降低到3.3
启发与关联¶
- 视频级融合框架可推广到其他多模态融合场景(如医学影像序列、遥感时序)
- M3SVD数据集可作为视频融合、配准、去退化的统一基准
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性视频融合框架+大规模数据集,但各模块设计相对直接
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集/正常+退化场景/全面消融/效率分析/下游任务/时序可视化
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,数据集构建详细,图表丰富
- 价值: ⭐⭐⭐⭐⭐ M3SVD数据集填补空白,VideoFusion从图像融合推进到视频融合,实际意义大