VSRM: A Robust Mamba-Based Framework for Video Super-Resolution¶

会议: ICCV 2025
arXiv: 2506.22762
代码: 无
领域: Image Restoration / Video Super-Resolution
关键词: Video Super-Resolution, Mamba, State Space Model, Deformable Alignment, Frequency Loss

一句话总结¶

首次将 Mamba 引入视频超分辨率（VSR），提出 VSRM 框架，通过双聚合Mamba块实现高效时空建模，结合可变形交叉Mamba对齐和频域损失，在多个基准上取得 SOTA。

研究背景与动机¶

视频超分辨率需要处理长序列并利用大感受野捕获帧间信息。现有方法存在明显局限：

CNN方法（如BasicVSR）：感受野受限于局部区域，无法灵活捕获远距离帧间信息
Transformer方法（如IART、PSRT）：全注意力的二次复杂度不适合长序列；窗口注意力虽降低复杂度但又牺牲了感受野
对齐模块：现有方法多用双线性插值等固定权重做对齐，导致特征失真；基于注意力的隐式对齐也受限于固定参考窗口
损失函数：像素级损失导致过度平滑，感知损失引入额外失真，且模型存在频谱偏置问题

Mamba 凭借线性复杂度、大感受野和数据依赖特性，天然适合 VSR 任务，但此前尚未被探索。

方法详解¶

整体框架¶

VSRM 包含两个主要部分：特征提取（Conv2d + Feature Propagation Block）和上采样器（Reconstruction）。Feature Propagation Block 包含 Deformable Cross-mamba Alignment（DCA）和 Dual Aggregation Mamba Block（DAMB）。

关键设计¶

Dual Aggregation Mamba Block (DAMB)：核心模块，由 N 个 S2TMB 和 1 个 T2SMB 组成。
- S2TMB（空间到时间Mamba）：将3D序列展平为1D，按先空间后时间的顺序进行前向和反向双向扫描。双向扫描保持空间感知的同时实现时间建模。公式：$S2T\text{-}Mamba(x,z)=Linear(x_1 \odot z + x_2 \odot z)$
- T2SMB（时间到空间Mamba）：仅执行前向扫描（实验证明单向更优），优先提取时间信息，弥补 S2TMB 对时间建模的不足。
- TGFN（时间门控前馈网络）：引入3D深度可分离卷积建模时空邻域关系，并使用门控机制（通道分割+GELU）优化信息流：$TGFN(X)=W_p^2(W_d^1 LN(\hat{X}_1) \odot \sigma(W_d^2 LN(\hat{X}_2)))$
Deformable Cross-mamba Alignment (DCA)：解决帧间运动对齐问题。
- 使用预训练 SpyNet 估计光流
- 在补偿阶段引入可变形窗口机制：在参考帧上提取窗口 $w$，初始化参考区域 $r$，通过小型偏移网络学习偏移量 $\epsilon_r$ 得到动态参考区域 $\bar{r}=\phi(w; r+\epsilon_r)$
- 通过交叉Mamba模块融合目标点和动态参考点：$\bar{X}(x,y) = cross\text{-}mamba(R,Q)$，其中 $H_t = \bar{A}_R H_{t-1} + \bar{B}_R \bar{R}_t$, $\bar{X}_t = C_Q H_t$
- 相比固定窗口对齐，能更灵活地适应不同幅度的运动
Frequency Charbonnier-like Loss (FCL)：在频域计算损失以恢复高频细节。
- 对图像进行FFT变换，分别计算实部和虚部的Charbonnier损失
- $\mathcal{L}_{FCL}=\sum_{i\in\{Re,Im\}} \lambda_i \sqrt{\|i\mathcal{F}(\mathbf{I}_{SR})-i\mathcal{F}(\mathbf{I}_{HR})\|^2+\epsilon^2}$
- 不使用幅度/相位（避免平方根和arctan带来的不连续性），直接对实部和虚部操作

损失函数 / 训练策略¶

总损失：$\mathcal{L}_{total} = \lambda \mathcal{L}_{CL} + \mathcal{L}_{FCL}$

超参设置：$\lambda=1.0$，$\lambda_{Re}=\lambda_{Im}=0.02$，$\epsilon=10^{-3}$。训练集为 REDS 和 Vimeo-90K，任务为 ×4 超分。

实验关键数据¶

主实验¶

方法	帧数	参数量(M)	REDS4 PSNR	REDS4 SSIM	Vimeo-90K-T PSNR	Vid4 PSNR
BasicVSR++	30/14	7.3	32.39	0.9069	37.79	27.79
VRT	16/7	35.6	32.19	0.9006	38.20	27.93
RVRT	30/14	10.8	32.75	0.9113	38.15	27.99
PSRT-recurrent	16/14	13.4	32.72	0.9106	38.27	28.07
IART	16/7	13.4	32.90	0.9138	38.14	28.26
VSRM	16/7	17.1	33.11	0.9162	38.33	28.44

在6帧设置下，VSRM 同样超越 IART 0.28dB（32.43 vs 32.15）。

消融实验¶

消融项	PSNR (dB)	说明
3D DW-Conv（替代Mamba）	30.84	Mamba优势明显 (+0.25dB)
Window Attention（替代Mamba）	30.97	Mamba更优 (+0.12dB)
Full Attention	31.06	性能接近但FLOPs高6.7×
Mamba (ours)	31.09	性能与效率最佳平衡
w/o 对齐模块	30.87	对齐模块贡献 +0.22dB
FGDA 对齐	30.92	DCA更优 +0.17dB
IA 对齐	31.00	DCA更优 +0.09dB
w/o T2SMB	30.95	T2SMB贡献 +0.14dB
w/o FCL	30.97	FCL贡献 +0.12dB
FFN（替代TGFN）	30.90	TGFN贡献 +0.19dB

关键发现¶

VSRM在REDS4上比IART高0.21dB，在Vid4上高0.18dB，表明在大运动和小运动场景均有效
Mamba以仅159.2G FLOPs达到与Full Attention（1018.1G）近乎相同的性能
T2SMB仅用前向扫描比双向扫描更好（31.09 vs 31.02），说明冗余扫描有害
有效感受野（ERF）可视化表明 VSRM 达到了全局感受野，远超CNN和Transformer方法

亮点与洞察¶

首次验证 Mamba 在VSR中的有效性，为低级视觉任务开辟新的backbone选择
DCA 模块的"可变形窗口 + 交叉Mamba"设计巧妙：可变形处理不同运动幅度，交叉Mamba实现隐式对齐
FCL 损失直接对实部/虚部计算Charbonnier损失，相比FFL等方法更简单且效果更好
TGFN中3D DWConv的引入使前馈网络也能建模时空信息

局限与展望¶

参数量（17.1M）和运行时间（223ms）略高于PSRT/IART（13.4M, ~175ms）
Mamba 的加速和优化仍在探索阶段，有进一步提速空间
仅验证了 ×4 超分，未涉及其他倍数
可扩展到视频去模糊、去噪、上色等其他低级视觉任务

评分¶

新颖性: ⭐⭐⭐⭐ 首次将Mamba用于VSR，S2T/T2S双向扫描设计合理
实验充分度: ⭐⭐⭐⭐⭐ 消融全面（主干、对齐、FFN、损失、扫描方向均有消融），多数据集验证
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整
价值: ⭐⭐⭐⭐ 为VSR提供了新的高效backbone选择，SOTA结果有说服力

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution¶

会议: ICCV 2025
arXiv: 2506.22762
代码: 无
领域: Image Restoration / Video Super-Resolution
关键词: 视频超分辨率, Mamba, 状态空间模型, 可变形对齐, 频域损失

一句话总结¶

首次将 Mamba 引入视频超分辨率任务，提出双聚合 Mamba 模块（DAMB）捕获时空长程依赖、可变形交叉 Mamba 对齐模块（DCA）增强帧间对齐灵活性，以及频域 Charbonnier 损失（FCL）改善高频细节恢复，在 REDS4/Vid4/Vimeo-90K 上取得 SOTA。

研究背景与动机¶

视频超分辨率（VSR）旨在从低分辨率视频生成高分辨率帧，需要利用多帧互补信息。当前方法主要基于 CNN 或 Transformer：

CNN 方法（如 BasicVSR）受限于局部感受野，无法有效捕获远距离帧间信息
Transformer 方法（如 PSRT、IART）提供了强大的注意力机制，但全注意力的二次复杂度使其在长序列处理中不实际；窗口注意力虽降低复杂度，但感受野仍受限
对齐模块：现有方法多使用双线性/最近邻插值进行空间对齐，固定权重导致特征畸变；IART 虽提出基于注意力的隐式插值，但在固定参考窗口内计算，灵活性不足
损失函数：像素级损失过于平滑，感知损失引入更大失真；VSR 是病态问题，重建帧与 GT 之间的差异在频域中尤为明显

Mamba 以线性复杂度实现长序列建模和数据依赖特性，非常适合 VSR 场景。本文首次探索 Mamba 在 VSR 中的应用。

方法详解¶

整体框架¶

VSRM 由两部分组成：特征提取（Conv2d + 特征传播模块 FPB）和上采样器（重建模块）。FPB 包含可变形交叉 Mamba 对齐（DCA）和双聚合 Mamba 模块（DAMB），先对齐相邻帧特征，再提取深层时空特征，最后通过上采样器生成高分辨率输出。

关键设计¶

双聚合 Mamba 模块 (DAMB)：由 N 个 S2TMB 和 1 个 T2SMB 组成，充分建模空间和时间两个维度的长程依赖。
- S2T-Mamba（空间到时间）：将 3D 视频序列展平为 1D 序列，采用空间优先→时间的扫描顺序，使用前向和反向双向 SSM 处理，公式：$S2T\text{-}Mamba(x,z) = Linear(x_1 \odot z + x_2 \odot z)$
- T2S-Mamba（时间到空间）：采用时间优先→空间的扫描顺序，仅使用单向前向扫描。实验表明 S2TMB 偏重空间信息提取，T2SMB 显式优先提取时间信息，二者互补
- TGFN（时间门控前馈网络）：包含 3D 深度可分离卷积和门控机制，替代标准 FFN，更好地建模时空相邻像素关系并优化信息流
可变形交叉 Mamba 对齐 (DCA)：使用 SpyNet 估计光流，在补偿阶段引入可变形窗口方案。核心思路：
- 对每个目标像素，根据光流在参考帧中定位采样点
- 在采样位置周围构建窗口 $w$，初始化参考区域 $r$
- 通过可学习偏移网络 $\mathcal{S}(w)$ 学习偏移 $\epsilon_r$，获得动态参考区域 $\bar{r} = \phi(w; r + \epsilon_r)$
- 通过 cross-mamba 模块融合参考点与目标点信息完成对齐：$\bar{X}(x,y) = cross\text{-}mamba(R, Q)$
- cross-mamba 基于 SSM 递推：$H_t = \bar{A}_R H_{t-1} + \bar{B}_R \bar{R}_t, \bar{X}_t = C_Q H_t$
频域 Charbonnier 损失 (FCL)：在频域中分别计算实部和虚部的 Charbonnier 损失，而非使用幅度/相位（避免平方根和反正切函数带来的不连续性）。公式：

$$\mathcal{L}_{FCL} = \sum_{i \in \{Re, Im\}} \lambda_i \sqrt{\|i\mathcal{F}(\mathbf{I}_{SR}) - i\mathcal{F}(\mathbf{I}_{HR})\|^2 + \epsilon^2}$$

损失函数 / 训练策略¶

总损失为空间域 Charbonnier 损失与频域 FCL 的加权组合：

\[\mathcal{L}_{total} = \lambda \mathcal{L}_{CL} + \mathcal{L}_{FCL}\]

其中 $\lambda = 1.0$，$\lambda_{Re} = \lambda_{Im} = 0.02$，$\epsilon = 10^{-3}$。训练集使用 REDS 和 Vimeo-90K。

实验关键数据¶

主实验¶

方法	输入帧数	参数量(M)	REDS4 PSNR	REDS4 SSIM	Vid4 PSNR	Vid4 SSIM
BasicVSR++	30/14	7.3	32.39	0.9069	27.79	0.8400
VRT	16/7	35.6	32.19	0.9006	27.93	0.8425
RVRT	30/14	10.8	32.75	0.9113	27.99	0.8462
PSRT-rec	16/14	13.4	32.72	0.9106	28.07	0.8485
IART	16/7	13.4	32.90	0.9138	28.26	0.8517
VSRM	16/7	17.1	33.11	0.9162	28.44	0.8552

VSRM 在 REDS4 上比 IART 提升 0.21dB（16帧设置），在 Vid4 上提升 0.18dB，同时也在 Vimeo-90K-T 上取得最优 38.33dB。

消融实验¶

消融项	PSNR (dB)	参数量(M)	FLOPs(G)
3D DW-Conv (替换 Mamba)	30.84	19.49	149.8
窗口注意力 (替换 Mamba)	30.97	7.68	152.4
全注意力 (替换 Mamba)	31.06	7.68	1018.1
Mamba (ours)	31.09	8.61	159.2
无 DCA 对齐	30.87	8.53	120.4
FGDA 对齐	30.92	8.70	154.3
IA 对齐	31.00	8.57	148.7
DCA 对齐 (ours)	31.09	8.61	159.2
无 T2SMB	30.95	7.87	155.6
T2SMB (双向)	31.02	8.65	162.2
T2SMB (单向, ours)	31.09	8.61	159.2
FFN	30.90	8.68	136.2
TGFN (ours)	31.09	8.61	159.2
无 FCL (λ=0)	30.97	-	-
FCL (λ=0.02)	31.09	-	-

关键发现¶

Mamba 在达到与全注意力相似 PSNR 的同时，FLOPs 仅为其 1/6 (159G vs 1018G)
DCA 比 FGDA 和 IA 对齐分别提升 0.17dB 和 0.09dB，验证了可变形窗口机制的优势
T2SMB 补充了 S2TMB 不足的时间信息提取（+0.14dB），且单向扫描优于双向
移除 FCL 损失导致 0.12dB 下降，证明频域约束对高频细节恢复的重要性
VSRM 的有效感受野（ERF）远大于 CNN 和 Transformer 方法

亮点与洞察¶

首次 Mamba + VSR：成功验证 Mamba 在视频超分辨率中的可行性，兼具线性复杂度和全局感受野
S2T 和 T2S 互补扫描：将空间优先和时间优先两种扫描策略组合，完整提取时空特征，是 VSR 特有的 Mamba 适配方案
DCA 的可变形参考区域：不同于固定窗口的隐式对齐，通过学习偏移动态调整参考区域，更好地处理运动幅度差异
FCL 损失设计简洁有效：直接在实/虚部上计算 Charbonnier 损失，避免了幅度/相位计算的数值不稳定问题

局限与展望¶

参数量（17.1M）和运行时间（223ms）略高于 PSRT/IART（13.4M, 173-180ms），Mamba 的加速优化仍在探索中
仅探索了 4× 超分任务，未验证其他缩放因子和降质模型
Mamba 在视觉领域的加速库和硬件支持不如 Transformer 成熟
可进一步扩展到其他低级视觉任务（去模糊、去噪、着色等）

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 Mamba 引入 VSR，双向扫描和 DCA 设计有创新
实验充分度: ⭐⭐⭐⭐⭐ 消融覆盖每个模块，多指标多数据集对比
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 为 Mamba 在低级视觉的应用提供了坚实 baseline

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶