跳转至

VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion

会议: CVPR 2026
arXiv: 2503.23359
代码: https://github.com/Linfeng-Tang/VideoFusion
领域: 图像融合 / 视频处理
关键词: multi-modal video fusion, infrared-visible, temporal consistency, cross-modal, dataset

一句话总结

构建M3SVD大规模红外-可见光视频数据集(220视频/15万帧),并提出VideoFusion框架,通过跨模态差分强化模块(CmDRM)+完整模态引导融合(CMGF)+双向时序共注意力(BiCAM)+变分一致性损失,实现时空协同的多模态视频融合,在融合质量和时序一致性上超越现有图像融合和视频融合方法。

背景与动机

多传感器融合研究主要集中在静态图像融合——大量方法用AE/CNN/GAN/Transformer/Diffusion做红外-可见光图像融合。但实际场景中传感器采集的是连续视频,逐帧应用图像融合方法会忽略帧间时序依赖,导致闪烁伪影和时序不一致。主要瓶颈是缺乏大规模时序对齐的多模态视频数据集(现有TNO仅3个视频/114帧,INO分辨率低,HDO质量差),且联合建模空间和时序依赖在统一框架中具有挑战性。

核心问题

如何在多模态视频融合中同时利用跨模态互补信息和帧间时序依赖,生成高质量且时序一致的融合视频?

方法详解

整体框架

编码器-解码器架构。编码阶段:3D卷积提取浅层时序特征 → 下采样+ResBlock+CmDRM提取多尺度增强特征 → CMGF在多尺度聚合跨模态上下文。解码阶段:Transformer增强块 → BiCAM建立跨帧时序依赖 → 融合解码器+模态分离模块分别重建融合视频和去退化的红外/可见光视频。

关键设计

  1. 跨模态差分强化模块 (CmDRM):核心思想是提取跨模态差分信息(互补而非冗余)。计算差分特征 \(\mathcal{F}_d^t = \mathcal{F}_{ir}^t - \mathcal{F}_{vi}^t\),将其作为Key/Value,原模态特征作Query做交叉注意力。然后通过可学习贡献度量自适应融合原始特征和差分强化特征,再经通道+空间注意力细化。

  2. 完整模态引导融合 (CMGF):用双模态特征之和 \(\mathcal{F}_c^t = \hat{\mathcal{F}}_{ir}^t + \hat{\mathcal{F}}_{vi}^t\) 作为公共Query,分别从红外和可见光特征中提取模态特定信息,实现引导式跨模态聚合。

  3. 双向时序共注意力 (BiCAM):当前帧特征作为共享Query,前一帧和后一帧特征分别生成K/V。计算前向/后向注意力后,通过 \(\mathcal{A}_{co} = \text{softmax}(\mathcal{A}_{t-1} * \mathcal{A}_{t+1})\) 融合双向时序动态,类似Swin Transformer的移动窗口机制——通过堆叠N个BiCAM间接获取长程时序上下文。

  4. 变分一致性损失 \(\mathcal{L}_{var}\):基于假设:静态背景的帧间变化应趋近零,动态物体的帧间变化应与源视频一致。对融合视频和去退化视频分别约束帧间差异与高质量源视频一致。

损失函数

  • \(\mathcal{L}_{int}\): 强度损失,保持源视频中的显著目标
  • \(\mathcal{L}_{grad}\): 梯度损失,保持纹理细节
  • \(\mathcal{L}_{color}\): CbCr颜色损失,保持色彩保真
  • \(\mathcal{L}_{sf}\): 场景保真损失,约束模态分离重建质量
  • \(\mathcal{L}_{var}\): 变分一致性损失,抑制时序闪烁

实验关键数据

M3SVD (退化) MI↑ SSIM↑ VIF↑ flowD↓
U2Fusion 2.490 0.600 0.439 6.547
TemCoCo 3.548 0.597 0.490 4.378
VideoFusion 4.008 0.632 0.526 3.294
M3SVD (正常) MI↑ SSIM↑ VIF↑ flowD↓
TC-MoA 2.894 0.602 0.577 5.305
TemCoCo 3.548 0.597 0.490 4.379
VideoFusion 4.191 0.646 0.605 3.494
  • 时序一致性:VideoFusion的flowD最低(3.294/3.494),逐帧方法如DDFM/LRRNet flowD > 6
  • 效率:6.743M参数,267.78G FLOPs,0.067s/frame——与图像融合方法相当
  • 下游任务:YOLO v11在VideoFusion结果上检测更多目标+更平滑轨迹

消融实验要点

  • 去掉BiCAM:flowD从3.294→4.747,时序一致性显著恶化
  • 去掉CmDRM:信息恢复能力下降,MI从4.008→3.557
  • 去掉CMGF(替换为简单相加):SSIM从0.632→0.366,产生严重畸变
  • 去掉\(\mathcal{L}_{var}\):flowD从3.294→6.056
  • 去掉\(\mathcal{L}_{color}\):产生明显色彩畸变

亮点

  • M3SVD数据集是重要贡献:220视频/15万帧/100场景/4种挑战场景——比之前最大的HDO(24视频/7500帧)大一个量级
  • BiCAM的双向共注意力+堆叠设计简洁有效,无需光流或DCN做帧间对齐
  • 变分一致性损失的static/dynamic分别建模假设合理
  • 模态分离(unmixing)同时提供去退化结果——一个模型既做融合又做退化修复
  • CmDRM用差分信息而非原始互模态信息做注意力,有效减少冗余

局限性 / 可改进方向

  • 训练时T=7帧受GPU显存限制,大时序窗口可能进一步提升
  • BiCAM只看相邻帧(±1),对快速运动场景可能不够——虽然堆叠可间接扩大感受野
  • M3SVD的分辨率(640×480)和帧率(30fps)相对有限
  • 仅验证红外-可见光融合,多光谱/SAR等其他模态未验证
  • 定量评估指标(EN/MI/SD/SSIM/VIF)主要面向像素级质量,缺乏语义级评估

与相关工作的对比

  • vs TemCoCo:TemCoCo用DCN做帧间补偿,在多模态数据上泛化性差;VideoFusion用注意力机制自适应聚合,MI/VIF/flowD全面优于
  • vs RCVS:RCVS用手工特征做时序建模;VideoFusion端到端学习,融合质量和时序一致性更好
  • vs 图像融合方法 (SwinFusion/DDFM等):逐帧应用导致时序闪烁(flowD > 5),VideoFusion显著降低到3.3

启发与关联

  • 视频级融合框架可推广到其他多模态融合场景(如医学影像序列、遥感时序)
  • M3SVD数据集可作为视频融合、配准、去退化的统一基准

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性视频融合框架+大规模数据集,但各模块设计相对直接
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集/正常+退化场景/全面消融/效率分析/下游任务/时序可视化
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,数据集构建详细,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ M3SVD数据集填补空白,VideoFusion从图像融合推进到视频融合,实际意义大