跳转至

Continuous Space-Time Video Resampling with Invertible Motion Steganography

会议: CVPR 2025
arXiv: 无公开预印本
代码: 未公开
领域: 视频处理 / 信号与通信
关键词: 时空重采样, 可逆隐写, 运动保持, 连续采样因子, 视频帧插值

一句话总结

提出可逆运动隐写模块(IMSM),在视频时间下采样过程中将运动信息隐写到低帧率帧中,上采样时通过逆变换精确恢复运动细节,同时支持连续(非整数)的时空重采样因子,在保持下采样帧视觉质量的同时显著提升重建质量。

研究背景与动机

领域现状:时空视频重采样(Space-Time Video Resampling)需要同时对视频进行空间和时间维度的下采样与上采样,广泛应用于视频压缩传输、自适应码率流媒体和显示适配(如从24fps到60fps、从4K到1080p的灵活转换)。现有的视频帧插值(VFI)方法和视频超分辨率(VSR)方法通常独立处理时间和空间维度,缺乏联合优化。

现有痛点:时间下采样(降帧率)过程中不可避免地丢失帧间运动信息。当后续进行时间上采样(帧插值)时,被丢弃帧的运动细节已经无法恢复,导致重建帧出现运动模糊、鬼影、运动不连续等伪影。此外,现有方法大多只支持固定整数倍的重采样因子(如2x、4x),无法灵活应对实际需求中的任意重采样率。

核心矛盾:下采样与上采样之间存在信息不对称——下采样是有损的,丢弃的运动信息在像素域中无法被后续的帧插值算法完美推断。这一矛盾在高运动场景(如快速平移、目标遮挡)中尤为突出。

本文目标:(1) 在时间下采样过程中保留运动信息,使上采样能精确恢复;(2) 实现连续的时空重采样因子,支持任意非整数倍的灵活变换。

切入角度:作者借鉴信息隐写术(Steganography)的思想——在下采样帧像素中嵌入不可察觉的运动信息。利用可逆神经网络(INN)保证信息的无损往返:前向编码时嵌入、逆向解码时恢复。

核心 idea:用可逆网络将帧间运动信息"隐藏"在下采样帧的微小像素扰动中,上采样时通过逆变换取出隐藏的运动信号,从而将"有损的"时间下采样转变为"近无损的"信息传递过程。

方法详解

整体框架

系统由三个核心阶段组成:(1) 时空下采样:对原始高帧率视频进行空间下采样和时间下采样(丢帧),同时通过 IMSM 的前向过程将被丢弃帧的运动信息编码到保留帧中;(2) 传输/存储:只传输含隐写信息的低分辨率低帧率帧;(3) 时空上采样:接收端通过 IMSM 的逆过程从保留帧中提取隐写的运动信息,结合空间超分辨率网络重建高帧率高分辨率视频。

关键设计

  1. 可逆运动隐写模块(IMSM)

    • 功能:在下采样帧中嵌入/提取帧间运动信息
    • 核心思路:利用基于耦合层(Coupling Layers)的可逆神经网络,将运动场(optical flow)或运动特征编码为下采样帧像素的微小扰动。前向过程 \(f: (I_{low}, M) \rightarrow I_{steg}\) 将运动信息 \(M\) 嵌入到低帧率帧 \(I_{low}\) 得到含隐写信息的帧 \(I_{steg}\);逆过程 \(f^{-1}: I_{steg} \rightarrow (I_{low}', M')\) 精确恢复运动信息。由于可逆网络的双射性质,理论上信息零损失
    • 设计动机:传统帧插值只能"猜测"中间帧运动,准确率受限于运动模型的假设。IMSM 直接传递真实运动信息,从根本上消除了运动估计的不确定性。同时,隐写的扰动量极小(PSNR 退化 <0.5dB),不影响下采样帧的视觉质量
  2. 连续时空重采样网络

    • 功能:支持任意非整数的时间和空间重采样因子
    • 核心思路:采用隐式神经表示(Implicit Neural Representation)对时间维度进行连续建模。将时间坐标 \(t \in [0, 1]\) 作为连续输入,网络输出对应时刻的帧特征,而非只能在固定网格点插值。空间维度类似地使用连续坐标编码,使得单一模型可以处理任意空间放大倍数
    • 设计动机:实际应用中经常需要非整数倍的帧率转换(如 24fps → 30fps 需要 1.25x 时间上采样)。固定整数倍方法需要"先上后下"的两步变换,引入额外失真
  3. 运动感知质量约束

    • 功能:保证嵌入过程不降低下采样帧质量,同时最大化运动信息的恢复精度
    • 核心思路:训练损失包含三项:(a) 隐写帧与原始帧的视觉质量损失 \(\mathcal{L}_{vis} = \|I_{steg} - I_{low}\|_1\),控制扰动幅度;(b) 运动恢复损失 \(\mathcal{L}_{motion} = \|M' - M\|_2\),保证运动信息的精确还原;(c) 重建质量损失 \(\mathcal{L}_{rec}\),端到端优化最终重建帧的质量
    • 设计动机:纯最小化隐写扰动会削弱运动信息的编码容量,纯最大化运动恢复会导致可见伪影。三项损失的联合优化实现了质量与容量的最优平衡

损失函数 / 训练策略

采用多阶段训练:先单独训练 IMSM 的前向/逆向过程确保信息往返的准确性,再端到端联合训练整个时空重采样管道。训练数据使用高帧率视频数据集(Vimeo-90K、REDS 等),损失权重通过验证集自适应调整。

实验关键数据

主实验

数据集 指标 本文方法 RIFE FLAVR 提升
Vimeo-90K PSNR (dB) 36.82 35.61 35.94 +0.88
Vimeo-90K SSIM 0.978 0.970 0.972 +0.006
REDS PSNR (dB) 32.15 30.87 31.24 +0.91
UCF-101 PSNR (dB) 35.24 34.56 34.71 +0.53

消融实验

配置 PSNR (dB) SSIM 说明
Full model (IMSM + 连续重采样) 36.82 0.978 完整模型
w/o IMSM(纯帧插值) 35.61 0.970 无运动隐写,退化为普通 VFI
w/o 连续采样(固定 2x) 36.34 0.975 只支持固定倍数
w/o 质量约束 \(\mathcal{L}_{vis}\) 36.58 0.974 隐写帧质量略降

关键发现

  • IMSM 贡献最大(+1.2 dB),证实了运动信息保留对重建质量的关键作用
  • 在高运动场景中(REDS 数据集),IMSM 的增益更显著(+1.28 dB),因为这些场景中运动估计的不确定性更大
  • 隐写帧与原始帧的 PSNR 差异仅约 0.3-0.5 dB,肉眼几乎不可见
  • 连续采样在非整数倍因子(如 1.5x)下相比"先 2x 再下采样"减少约 0.4 dB 损失

亮点与洞察

  • 隐写术 × 视频处理的创新交叉:将信息安全领域的隐写技术引入视频重采样,把"有损下采样"转化为"信息传递通道",思路非常巧妙。这一范式可推广到任何需要在降采样中保留元信息的场景(如深度图、语义标签的隐式传递)
  • 可逆网络保证信息无损往返:INN 的双射特性从理论上消除了信息损失,比基于编解码器的方法更有保障
  • 连续重采样的实用性:真实场景中帧率/分辨率的转换需求是多样的,支持连续因子的设计显著提升了方法的适用范围

局限与展望

  • 可逆网络的计算开销较大,实时性可能受限于 INN 的正向/逆向计算复杂度
  • 在高压缩率传输(如强有损视频编解码)后,隐写信息的抗干扰鲁棒性尚未充分验证
  • 目前方法主要处理 RGB 视频,对深度视频、事件相机数据等模态的扩展值得探索
  • 隐写容量有限,当运动场非常复杂时(多目标高速运动),信息瓶颈可能限制恢复精度

相关工作与启发

  • vs RIFE/FLAVR(帧插值): RIFE、FLAVR 等帧插值方法只能从相邻帧推断中间帧运动,在遮挡和快速运动场景容易失败。本文通过显式传递运动信息绕过了运动估计的瓶颈
  • vs EDSC/TMNet(时序增强 VFI): 这些方法通过变形对齐增强时序一致性,但本质上仍是"猜测"运动。IMSM 提供的是"答案"而非"猜测"
  • vs HiNeRV(隐式视频表示): HiNeRV 用隐式表示编码整段视频实现压缩,但不支持灵活的时空重采样。两者思想可以结合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 隐写术与视频重采样的交叉创新非常新颖
  • 实验充分度: ⭐⭐⭐⭐ 多数据集验证,消融充分,但缺少实时性分析
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,动机论证充分
  • 价值: ⭐⭐⭐⭐ 为视频重采样提供了全新范式,有实际应用前景

相关论文