跳转至

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution

会议: ICCV 2025
arXiv: 2506.22762
代码: 无
领域: Image Restoration / Video Super-Resolution
关键词: Video Super-Resolution, Mamba, State Space Model, Deformable Alignment, Frequency Loss

一句话总结

首次将 Mamba 引入视频超分辨率(VSR),提出 VSRM 框架,通过双聚合Mamba块实现高效时空建模,结合可变形交叉Mamba对齐和频域损失,在多个基准上取得 SOTA。

研究背景与动机

视频超分辨率需要处理长序列并利用大感受野捕获帧间信息。现有方法存在明显局限:

  • CNN方法(如BasicVSR):感受野受限于局部区域,无法灵活捕获远距离帧间信息
  • Transformer方法(如IART、PSRT):全注意力的二次复杂度不适合长序列;窗口注意力虽降低复杂度但又牺牲了感受野
  • 对齐模块:现有方法多用双线性插值等固定权重做对齐,导致特征失真;基于注意力的隐式对齐也受限于固定参考窗口
  • 损失函数:像素级损失导致过度平滑,感知损失引入额外失真,且模型存在频谱偏置问题

Mamba 凭借线性复杂度、大感受野和数据依赖特性,天然适合 VSR 任务,但此前尚未被探索。

方法详解

整体框架

VSRM 包含两个主要部分:特征提取(Conv2d + Feature Propagation Block)和上采样器(Reconstruction)。Feature Propagation Block 包含 Deformable Cross-mamba Alignment(DCA)和 Dual Aggregation Mamba Block(DAMB)。

关键设计

  1. Dual Aggregation Mamba Block (DAMB):核心模块,由 N 个 S2TMB 和 1 个 T2SMB 组成。

    • S2TMB(空间到时间Mamba):将3D序列展平为1D,按先空间后时间的顺序进行前向和反向双向扫描。双向扫描保持空间感知的同时实现时间建模。公式:\(S2T\text{-}Mamba(x,z)=Linear(x_1 \odot z + x_2 \odot z)\)
    • T2SMB(时间到空间Mamba):仅执行前向扫描(实验证明单向更优),优先提取时间信息,弥补 S2TMB 对时间建模的不足。
    • TGFN(时间门控前馈网络):引入3D深度可分离卷积建模时空邻域关系,并使用门控机制(通道分割+GELU)优化信息流:\(TGFN(X)=W_p^2(W_d^1 LN(\hat{X}_1) \odot \sigma(W_d^2 LN(\hat{X}_2)))\)
  2. Deformable Cross-mamba Alignment (DCA):解决帧间运动对齐问题。

    • 使用预训练 SpyNet 估计光流
    • 在补偿阶段引入可变形窗口机制:在参考帧上提取窗口 \(w\),初始化参考区域 \(r\),通过小型偏移网络学习偏移量 \(\epsilon_r\) 得到动态参考区域 \(\bar{r}=\phi(w; r+\epsilon_r)\)
    • 通过交叉Mamba模块融合目标点和动态参考点:\(\bar{X}(x,y) = cross\text{-}mamba(R,Q)\),其中 \(H_t = \bar{A}_R H_{t-1} + \bar{B}_R \bar{R}_t\), \(\bar{X}_t = C_Q H_t\)
    • 相比固定窗口对齐,能更灵活地适应不同幅度的运动
  3. Frequency Charbonnier-like Loss (FCL):在频域计算损失以恢复高频细节。

    • 对图像进行FFT变换,分别计算实部和虚部的Charbonnier损失
    • \(\mathcal{L}_{FCL}=\sum_{i\in\{Re,Im\}} \lambda_i \sqrt{\|i\mathcal{F}(\mathbf{I}_{SR})-i\mathcal{F}(\mathbf{I}_{HR})\|^2+\epsilon^2}\)
    • 不使用幅度/相位(避免平方根和arctan带来的不连续性),直接对实部和虚部操作

损失函数 / 训练策略

总损失:\(\mathcal{L}_{total} = \lambda \mathcal{L}_{CL} + \mathcal{L}_{FCL}\)

超参设置:\(\lambda=1.0\)\(\lambda_{Re}=\lambda_{Im}=0.02\)\(\epsilon=10^{-3}\)。训练集为 REDS 和 Vimeo-90K,任务为 ×4 超分。

实验关键数据

主实验

方法 帧数 参数量(M) REDS4 PSNR REDS4 SSIM Vimeo-90K-T PSNR Vid4 PSNR
BasicVSR++ 30/14 7.3 32.39 0.9069 37.79 27.79
VRT 16/7 35.6 32.19 0.9006 38.20 27.93
RVRT 30/14 10.8 32.75 0.9113 38.15 27.99
PSRT-recurrent 16/14 13.4 32.72 0.9106 38.27 28.07
IART 16/7 13.4 32.90 0.9138 38.14 28.26
VSRM 16/7 17.1 33.11 0.9162 38.33 28.44

在6帧设置下,VSRM 同样超越 IART 0.28dB(32.43 vs 32.15)。

消融实验

消融项 PSNR (dB) 说明
3D DW-Conv(替代Mamba) 30.84 Mamba优势明显 (+0.25dB)
Window Attention(替代Mamba) 30.97 Mamba更优 (+0.12dB)
Full Attention 31.06 性能接近但FLOPs高6.7×
Mamba (ours) 31.09 性能与效率最佳平衡
w/o 对齐模块 30.87 对齐模块贡献 +0.22dB
FGDA 对齐 30.92 DCA更优 +0.17dB
IA 对齐 31.00 DCA更优 +0.09dB
w/o T2SMB 30.95 T2SMB贡献 +0.14dB
w/o FCL 30.97 FCL贡献 +0.12dB
FFN(替代TGFN) 30.90 TGFN贡献 +0.19dB

关键发现

  • VSRM在REDS4上比IART高0.21dB,在Vid4上高0.18dB,表明在大运动和小运动场景均有效
  • Mamba以仅159.2G FLOPs达到与Full Attention(1018.1G)近乎相同的性能
  • T2SMB仅用前向扫描比双向扫描更好(31.09 vs 31.02),说明冗余扫描有害
  • 有效感受野(ERF)可视化表明 VSRM 达到了全局感受野,远超CNN和Transformer方法

亮点与洞察

  • 首次验证 Mamba 在VSR中的有效性,为低级视觉任务开辟新的backbone选择
  • DCA 模块的"可变形窗口 + 交叉Mamba"设计巧妙:可变形处理不同运动幅度,交叉Mamba实现隐式对齐
  • FCL 损失直接对实部/虚部计算Charbonnier损失,相比FFL等方法更简单且效果更好
  • TGFN中3D DWConv的引入使前馈网络也能建模时空信息

局限与展望

  • 参数量(17.1M)和运行时间(223ms)略高于PSRT/IART(13.4M, ~175ms)
  • Mamba 的加速和优化仍在探索阶段,有进一步提速空间
  • 仅验证了 ×4 超分,未涉及其他倍数
  • 可扩展到视频去模糊、去噪、上色等其他低级视觉任务

相关工作与启发

  • Mamba(S6)的选择性SSM机制使参数成为输入依赖的,克服了传统SSM的局限
  • 与 MambaIR 不同,VSRM 需要处理多帧3D序列,S2T/T2S扫描机制值得在其他视频任务中借鉴
  • 交叉Mamba对齐思路可用于视频中其他需要帧间对应的任务

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将Mamba用于VSR,S2T/T2S双向扫描设计合理
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融全面(主干、对齐、FFN、损失、扫描方向均有消融),多数据集验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整
  • 价值: ⭐⭐⭐⭐ 为VSR提供了新的高效backbone选择,SOTA结果有说服力

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution

会议: ICCV 2025
arXiv: 2506.22762
代码: 无
领域: Image Restoration / Video Super-Resolution
关键词: 视频超分辨率, Mamba, 状态空间模型, 可变形对齐, 频域损失

一句话总结

首次将 Mamba 引入视频超分辨率任务,提出双聚合 Mamba 模块(DAMB)捕获时空长程依赖、可变形交叉 Mamba 对齐模块(DCA)增强帧间对齐灵活性,以及频域 Charbonnier 损失(FCL)改善高频细节恢复,在 REDS4/Vid4/Vimeo-90K 上取得 SOTA。

研究背景与动机

视频超分辨率(VSR)旨在从低分辨率视频生成高分辨率帧,需要利用多帧互补信息。当前方法主要基于 CNN 或 Transformer:

  • CNN 方法(如 BasicVSR)受限于局部感受野,无法有效捕获远距离帧间信息
  • Transformer 方法(如 PSRT、IART)提供了强大的注意力机制,但全注意力的二次复杂度使其在长序列处理中不实际;窗口注意力虽降低复杂度,但感受野仍受限
  • 对齐模块:现有方法多使用双线性/最近邻插值进行空间对齐,固定权重导致特征畸变;IART 虽提出基于注意力的隐式插值,但在固定参考窗口内计算,灵活性不足
  • 损失函数:像素级损失过于平滑,感知损失引入更大失真;VSR 是病态问题,重建帧与 GT 之间的差异在频域中尤为明显

Mamba 以线性复杂度实现长序列建模和数据依赖特性,非常适合 VSR 场景。本文首次探索 Mamba 在 VSR 中的应用。

方法详解

整体框架

VSRM 由两部分组成:特征提取(Conv2d + 特征传播模块 FPB)和上采样器(重建模块)。FPB 包含可变形交叉 Mamba 对齐(DCA)和双聚合 Mamba 模块(DAMB),先对齐相邻帧特征,再提取深层时空特征,最后通过上采样器生成高分辨率输出。

关键设计

  1. 双聚合 Mamba 模块 (DAMB):由 N 个 S2TMB 和 1 个 T2SMB 组成,充分建模空间和时间两个维度的长程依赖。

    • S2T-Mamba(空间到时间):将 3D 视频序列展平为 1D 序列,采用空间优先→时间的扫描顺序,使用前向和反向双向 SSM 处理,公式:\(S2T\text{-}Mamba(x,z) = Linear(x_1 \odot z + x_2 \odot z)\)
    • T2S-Mamba(时间到空间):采用时间优先→空间的扫描顺序,仅使用单向前向扫描。实验表明 S2TMB 偏重空间信息提取,T2SMB 显式优先提取时间信息,二者互补
    • TGFN(时间门控前馈网络):包含 3D 深度可分离卷积和门控机制,替代标准 FFN,更好地建模时空相邻像素关系并优化信息流
  2. 可变形交叉 Mamba 对齐 (DCA):使用 SpyNet 估计光流,在补偿阶段引入可变形窗口方案。核心思路:

    • 对每个目标像素,根据光流在参考帧中定位采样点
    • 在采样位置周围构建窗口 \(w\),初始化参考区域 \(r\)
    • 通过可学习偏移网络 \(\mathcal{S}(w)\) 学习偏移 \(\epsilon_r\),获得动态参考区域 \(\bar{r} = \phi(w; r + \epsilon_r)\)
    • 通过 cross-mamba 模块融合参考点与目标点信息完成对齐:\(\bar{X}(x,y) = cross\text{-}mamba(R, Q)\)
    • cross-mamba 基于 SSM 递推:\(H_t = \bar{A}_R H_{t-1} + \bar{B}_R \bar{R}_t, \bar{X}_t = C_Q H_t\)
  3. 频域 Charbonnier 损失 (FCL):在频域中分别计算实部和虚部的 Charbonnier 损失,而非使用幅度/相位(避免平方根和反正切函数带来的不连续性)。公式:

$\(\mathcal{L}_{FCL} = \sum_{i \in \{Re, Im\}} \lambda_i \sqrt{\|i\mathcal{F}(\mathbf{I}_{SR}) - i\mathcal{F}(\mathbf{I}_{HR})\|^2 + \epsilon^2}\)$

损失函数 / 训练策略

总损失为空间域 Charbonnier 损失与频域 FCL 的加权组合:

\[\mathcal{L}_{total} = \lambda \mathcal{L}_{CL} + \mathcal{L}_{FCL}\]

其中 \(\lambda = 1.0\)\(\lambda_{Re} = \lambda_{Im} = 0.02\)\(\epsilon = 10^{-3}\)。训练集使用 REDS 和 Vimeo-90K。

实验关键数据

主实验

方法 输入帧数 参数量(M) REDS4 PSNR REDS4 SSIM Vid4 PSNR Vid4 SSIM
BasicVSR++ 30/14 7.3 32.39 0.9069 27.79 0.8400
VRT 16/7 35.6 32.19 0.9006 27.93 0.8425
RVRT 30/14 10.8 32.75 0.9113 27.99 0.8462
PSRT-rec 16/14 13.4 32.72 0.9106 28.07 0.8485
IART 16/7 13.4 32.90 0.9138 28.26 0.8517
VSRM 16/7 17.1 33.11 0.9162 28.44 0.8552

VSRM 在 REDS4 上比 IART 提升 0.21dB(16帧设置),在 Vid4 上提升 0.18dB,同时也在 Vimeo-90K-T 上取得最优 38.33dB。

消融实验

消融项 PSNR (dB) 参数量(M) FLOPs(G)
3D DW-Conv (替换 Mamba) 30.84 19.49 149.8
窗口注意力 (替换 Mamba) 30.97 7.68 152.4
全注意力 (替换 Mamba) 31.06 7.68 1018.1
Mamba (ours) 31.09 8.61 159.2
无 DCA 对齐 30.87 8.53 120.4
FGDA 对齐 30.92 8.70 154.3
IA 对齐 31.00 8.57 148.7
DCA 对齐 (ours) 31.09 8.61 159.2
无 T2SMB 30.95 7.87 155.6
T2SMB (双向) 31.02 8.65 162.2
T2SMB (单向, ours) 31.09 8.61 159.2
FFN 30.90 8.68 136.2
TGFN (ours) 31.09 8.61 159.2
无 FCL (λ=0) 30.97 - -
FCL (λ=0.02) 31.09 - -

关键发现

  • Mamba 在达到与全注意力相似 PSNR 的同时,FLOPs 仅为其 1/6 (159G vs 1018G)
  • DCA 比 FGDA 和 IA 对齐分别提升 0.17dB 和 0.09dB,验证了可变形窗口机制的优势
  • T2SMB 补充了 S2TMB 不足的时间信息提取(+0.14dB),且单向扫描优于双向
  • 移除 FCL 损失导致 0.12dB 下降,证明频域约束对高频细节恢复的重要性
  • VSRM 的有效感受野(ERF)远大于 CNN 和 Transformer 方法

亮点与洞察

  • 首次 Mamba + VSR:成功验证 Mamba 在视频超分辨率中的可行性,兼具线性复杂度和全局感受野
  • S2T 和 T2S 互补扫描:将空间优先和时间优先两种扫描策略组合,完整提取时空特征,是 VSR 特有的 Mamba 适配方案
  • DCA 的可变形参考区域:不同于固定窗口的隐式对齐,通过学习偏移动态调整参考区域,更好地处理运动幅度差异
  • FCL 损失设计简洁有效:直接在实/虚部上计算 Charbonnier 损失,避免了幅度/相位计算的数值不稳定问题

局限与展望

  • 参数量(17.1M)和运行时间(223ms)略高于 PSRT/IART(13.4M, 173-180ms),Mamba 的加速优化仍在探索中
  • 仅探索了 4× 超分任务,未验证其他缩放因子和降质模型
  • Mamba 在视觉领域的加速库和硬件支持不如 Transformer 成熟
  • 可进一步扩展到其他低级视觉任务(去模糊、去噪、着色等)

相关工作与启发

  • BasicVSR 系列展示了通用组件(残差块+光流)的有效性,VSRM 在此基础上引入 Mamba 提升时空建模
  • MambaIR 验证了 Mamba 在图像恢复中的有效性,本文将其拓展到视频领域
  • 频域损失(FFL、WHFL)的比较证明了 FCL 在平衡低高频方面的优势

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 Mamba 引入 VSR,双向扫描和 DCA 设计有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融覆盖每个模块,多指标多数据集对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
  • 价值: ⭐⭐⭐⭐ 为 Mamba 在低级视觉的应用提供了坚实 baseline

相关论文