VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion¶

会议: CVPR 2026
arXiv: 2503.23359
代码: https://github.com/Linfeng-Tang/VideoFusion
领域: 图像融合 / 视频处理
关键词: multi-modal video fusion, infrared-visible, temporal consistency, cross-modal, dataset

一句话总结¶

构建M3SVD大规模红外-可见光视频数据集（220视频/15万帧），并提出VideoFusion框架，通过跨模态差分强化模块(CmDRM)+完整模态引导融合(CMGF)+双向时序共注意力(BiCAM)+变分一致性损失，实现时空协同的多模态视频融合，在融合质量和时序一致性上超越现有图像融合和视频融合方法。

背景与动机¶

多传感器融合研究主要集中在静态图像融合——大量方法用AE/CNN/GAN/Transformer/Diffusion做红外-可见光图像融合。但实际场景中传感器采集的是连续视频，逐帧应用图像融合方法会忽略帧间时序依赖，导致闪烁伪影和时序不一致。主要瓶颈是缺乏大规模时序对齐的多模态视频数据集（现有TNO仅3个视频/114帧，INO分辨率低，HDO质量差），且联合建模空间和时序依赖在统一框架中具有挑战性。

核心问题¶

如何在多模态视频融合中同时利用跨模态互补信息和帧间时序依赖，生成高质量且时序一致的融合视频？

方法详解¶

整体框架¶

编码器-解码器架构。编码阶段：3D卷积提取浅层时序特征 → 下采样+ResBlock+CmDRM提取多尺度增强特征 → CMGF在多尺度聚合跨模态上下文。解码阶段：Transformer增强块 → BiCAM建立跨帧时序依赖 → 融合解码器+模态分离模块分别重建融合视频和去退化的红外/可见光视频。

关键设计¶

跨模态差分强化模块 (CmDRM)：核心思想是提取跨模态差分信息（互补而非冗余）。计算差分特征 \(\mathcal{F}_d^t = \mathcal{F}_{ir}^t - \mathcal{F}_{vi}^t\)，将其作为Key/Value，原模态特征作Query做交叉注意力。然后通过可学习贡献度量自适应融合原始特征和差分强化特征，再经通道+空间注意力细化。
完整模态引导融合 (CMGF)：用双模态特征之和 \(\mathcal{F}_c^t = \hat{\mathcal{F}}_{ir}^t + \hat{\mathcal{F}}_{vi}^t\) 作为公共Query，分别从红外和可见光特征中提取模态特定信息，实现引导式跨模态聚合。
双向时序共注意力 (BiCAM)：当前帧特征作为共享Query，前一帧和后一帧特征分别生成K/V。计算前向/后向注意力后，通过 \(\mathcal{A}_{co} = \text{softmax}(\mathcal{A}_{t-1} * \mathcal{A}_{t+1})\) 融合双向时序动态，类似Swin Transformer的移动窗口机制——通过堆叠N个BiCAM间接获取长程时序上下文。
变分一致性损失 \(\mathcal{L}_{var}\)：基于假设：静态背景的帧间变化应趋近零，动态物体的帧间变化应与源视频一致。对融合视频和去退化视频分别约束帧间差异与高质量源视频一致。

损失函数¶

\(\mathcal{L}_{int}\): 强度损失，保持源视频中的显著目标
\(\mathcal{L}_{grad}\): 梯度损失，保持纹理细节
\(\mathcal{L}_{color}\): CbCr颜色损失，保持色彩保真
\(\mathcal{L}_{sf}\): 场景保真损失，约束模态分离重建质量
\(\mathcal{L}_{var}\): 变分一致性损失，抑制时序闪烁

实验关键数据¶

M3SVD (退化)	MI↑	SSIM↑	VIF↑	flowD↓
U2Fusion	2.490	0.600	0.439	6.547
TemCoCo	3.548	0.597	0.490	4.378
VideoFusion	4.008	0.632	0.526	3.294

M3SVD (正常)	MI↑	SSIM↑	VIF↑	flowD↓
TC-MoA	2.894	0.602	0.577	5.305
TemCoCo	3.548	0.597	0.490	4.379
VideoFusion	4.191	0.646	0.605	3.494

时序一致性：VideoFusion的flowD最低（3.294/3.494），逐帧方法如DDFM/LRRNet flowD > 6
效率：6.743M参数，267.78G FLOPs，0.067s/frame——与图像融合方法相当
下游任务：YOLO v11在VideoFusion结果上检测更多目标+更平滑轨迹

消融实验要点¶

去掉BiCAM：flowD从3.294→4.747，时序一致性显著恶化
去掉CmDRM：信息恢复能力下降，MI从4.008→3.557
去掉CMGF（替换为简单相加）：SSIM从0.632→0.366，产生严重畸变
去掉\(\mathcal{L}_{var}\)：flowD从3.294→6.056
去掉\(\mathcal{L}_{color}\)：产生明显色彩畸变

亮点¶

M3SVD数据集是重要贡献：220视频/15万帧/100场景/4种挑战场景——比之前最大的HDO（24视频/7500帧）大一个量级
BiCAM的双向共注意力+堆叠设计简洁有效，无需光流或DCN做帧间对齐
变分一致性损失的static/dynamic分别建模假设合理
模态分离（unmixing）同时提供去退化结果——一个模型既做融合又做退化修复
CmDRM用差分信息而非原始互模态信息做注意力，有效减少冗余

局限性 / 可改进方向¶

训练时T=7帧受GPU显存限制，大时序窗口可能进一步提升
BiCAM只看相邻帧（±1），对快速运动场景可能不够——虽然堆叠可间接扩大感受野
M3SVD的分辨率(640×480)和帧率(30fps)相对有限
仅验证红外-可见光融合，多光谱/SAR等其他模态未验证
定量评估指标（EN/MI/SD/SSIM/VIF）主要面向像素级质量，缺乏语义级评估

与相关工作的对比¶

vs TemCoCo：TemCoCo用DCN做帧间补偿，在多模态数据上泛化性差；VideoFusion用注意力机制自适应聚合，MI/VIF/flowD全面优于
vs RCVS：RCVS用手工特征做时序建模；VideoFusion端到端学习，融合质量和时序一致性更好
vs 图像融合方法 (SwinFusion/DDFM等)：逐帧应用导致时序闪烁（flowD > 5），VideoFusion显著降低到3.3

启发与关联¶

视频级融合框架可推广到其他多模态融合场景（如医学影像序列、遥感时序）
M3SVD数据集可作为视频融合、配准、去退化的统一基准

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性视频融合框架+大规模数据集，但各模块设计相对直接
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集/正常+退化场景/全面消融/效率分析/下游任务/时序可视化
写作质量: ⭐⭐⭐⭐ 框架描述清晰，数据集构建详细，图表丰富
价值: ⭐⭐⭐⭐⭐ M3SVD数据集填补空白，VideoFusion从图像融合推进到视频融合，实际意义大