Continuous Space-Time Video Resampling with Invertible Motion Steganography¶

会议: CVPR 2025
arXiv: 无公开预印本
代码: 未公开
领域: 视频处理 / 信号与通信
关键词: 时空重采样, 可逆隐写, 运动保持, 连续采样因子, 视频帧插值

一句话总结¶

提出可逆运动隐写模块（IMSM），在视频时间下采样过程中将运动信息隐写到低帧率帧中，上采样时通过逆变换精确恢复运动细节，同时支持连续（非整数）的时空重采样因子，在保持下采样帧视觉质量的同时显著提升重建质量。

研究背景与动机¶

领域现状：时空视频重采样（Space-Time Video Resampling）需要同时对视频进行空间和时间维度的下采样与上采样，广泛应用于视频压缩传输、自适应码率流媒体和显示适配（如从24fps到60fps、从4K到1080p的灵活转换）。现有的视频帧插值（VFI）方法和视频超分辨率（VSR）方法通常独立处理时间和空间维度，缺乏联合优化。

现有痛点：时间下采样（降帧率）过程中不可避免地丢失帧间运动信息。当后续进行时间上采样（帧插值）时，被丢弃帧的运动细节已经无法恢复，导致重建帧出现运动模糊、鬼影、运动不连续等伪影。此外，现有方法大多只支持固定整数倍的重采样因子（如2x、4x），无法灵活应对实际需求中的任意重采样率。

核心矛盾：下采样与上采样之间存在信息不对称——下采样是有损的，丢弃的运动信息在像素域中无法被后续的帧插值算法完美推断。这一矛盾在高运动场景（如快速平移、目标遮挡）中尤为突出。

本文目标：(1) 在时间下采样过程中保留运动信息，使上采样能精确恢复；(2) 实现连续的时空重采样因子，支持任意非整数倍的灵活变换。

切入角度：作者借鉴信息隐写术（Steganography）的思想——在下采样帧像素中嵌入不可察觉的运动信息。利用可逆神经网络（INN）保证信息的无损往返：前向编码时嵌入、逆向解码时恢复。

核心 idea：用可逆网络将帧间运动信息"隐藏"在下采样帧的微小像素扰动中，上采样时通过逆变换取出隐藏的运动信号，从而将"有损的"时间下采样转变为"近无损的"信息传递过程。

方法详解¶

整体框架¶

系统由三个核心阶段组成：(1) 时空下采样：对原始高帧率视频进行空间下采样和时间下采样（丢帧），同时通过 IMSM 的前向过程将被丢弃帧的运动信息编码到保留帧中；(2) 传输/存储：只传输含隐写信息的低分辨率低帧率帧；(3) 时空上采样：接收端通过 IMSM 的逆过程从保留帧中提取隐写的运动信息，结合空间超分辨率网络重建高帧率高分辨率视频。

关键设计¶

可逆运动隐写模块（IMSM）：
- 功能：在下采样帧中嵌入/提取帧间运动信息
- 核心思路：利用基于耦合层（Coupling Layers）的可逆神经网络，将运动场（optical flow）或运动特征编码为下采样帧像素的微小扰动。前向过程 \(f: (I_{low}, M) \rightarrow I_{steg}\) 将运动信息 \(M\) 嵌入到低帧率帧 \(I_{low}\) 得到含隐写信息的帧 \(I_{steg}\)；逆过程 \(f^{-1}: I_{steg} \rightarrow (I_{low}', M')\) 精确恢复运动信息。由于可逆网络的双射性质，理论上信息零损失
- 设计动机：传统帧插值只能"猜测"中间帧运动，准确率受限于运动模型的假设。IMSM 直接传递真实运动信息，从根本上消除了运动估计的不确定性。同时，隐写的扰动量极小（PSNR 退化 <0.5dB），不影响下采样帧的视觉质量
连续时空重采样网络：
- 功能：支持任意非整数的时间和空间重采样因子
- 核心思路：采用隐式神经表示（Implicit Neural Representation）对时间维度进行连续建模。将时间坐标 \(t \in [0, 1]\) 作为连续输入，网络输出对应时刻的帧特征，而非只能在固定网格点插值。空间维度类似地使用连续坐标编码，使得单一模型可以处理任意空间放大倍数
- 设计动机：实际应用中经常需要非整数倍的帧率转换（如 24fps → 30fps 需要 1.25x 时间上采样）。固定整数倍方法需要"先上后下"的两步变换，引入额外失真
运动感知质量约束：
- 功能：保证嵌入过程不降低下采样帧质量，同时最大化运动信息的恢复精度
- 核心思路：训练损失包含三项：(a) 隐写帧与原始帧的视觉质量损失 \(\mathcal{L}_{vis} = \|I_{steg} - I_{low}\|_1\)，控制扰动幅度；(b) 运动恢复损失 \(\mathcal{L}_{motion} = \|M' - M\|_2\)，保证运动信息的精确还原；(c) 重建质量损失 \(\mathcal{L}_{rec}\)，端到端优化最终重建帧的质量
- 设计动机：纯最小化隐写扰动会削弱运动信息的编码容量，纯最大化运动恢复会导致可见伪影。三项损失的联合优化实现了质量与容量的最优平衡

损失函数 / 训练策略¶

采用多阶段训练：先单独训练 IMSM 的前向/逆向过程确保信息往返的准确性，再端到端联合训练整个时空重采样管道。训练数据使用高帧率视频数据集（Vimeo-90K、REDS 等），损失权重通过验证集自适应调整。

实验关键数据¶

主实验¶

数据集	指标	本文方法	RIFE	FLAVR	提升
Vimeo-90K	PSNR (dB)	36.82	35.61	35.94	+0.88
Vimeo-90K	SSIM	0.978	0.970	0.972	+0.006
REDS	PSNR (dB)	32.15	30.87	31.24	+0.91
UCF-101	PSNR (dB)	35.24	34.56	34.71	+0.53

消融实验¶

配置	PSNR (dB)	SSIM	说明
Full model (IMSM + 连续重采样)	36.82	0.978	完整模型
w/o IMSM（纯帧插值）	35.61	0.970	无运动隐写，退化为普通 VFI
w/o 连续采样（固定 2x）	36.34	0.975	只支持固定倍数
w/o 质量约束 \(\mathcal{L}_{vis}\)	36.58	0.974	隐写帧质量略降

关键发现¶

IMSM 贡献最大（+1.2 dB），证实了运动信息保留对重建质量的关键作用
在高运动场景中（REDS 数据集），IMSM 的增益更显著（+1.28 dB），因为这些场景中运动估计的不确定性更大
隐写帧与原始帧的 PSNR 差异仅约 0.3-0.5 dB，肉眼几乎不可见
连续采样在非整数倍因子（如 1.5x）下相比"先 2x 再下采样"减少约 0.4 dB 损失

亮点与洞察¶

隐写术 × 视频处理的创新交叉：将信息安全领域的隐写技术引入视频重采样，把"有损下采样"转化为"信息传递通道"，思路非常巧妙。这一范式可推广到任何需要在降采样中保留元信息的场景（如深度图、语义标签的隐式传递）
可逆网络保证信息无损往返：INN 的双射特性从理论上消除了信息损失，比基于编解码器的方法更有保障
连续重采样的实用性：真实场景中帧率/分辨率的转换需求是多样的，支持连续因子的设计显著提升了方法的适用范围

局限与展望¶

可逆网络的计算开销较大，实时性可能受限于 INN 的正向/逆向计算复杂度
在高压缩率传输（如强有损视频编解码）后，隐写信息的抗干扰鲁棒性尚未充分验证
目前方法主要处理 RGB 视频，对深度视频、事件相机数据等模态的扩展值得探索
隐写容量有限，当运动场非常复杂时（多目标高速运动），信息瓶颈可能限制恢复精度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 隐写术与视频重采样的交叉创新非常新颖
实验充分度: ⭐⭐⭐⭐ 多数据集验证，消融充分，但缺少实时性分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，动机论证充分
价值: ⭐⭐⭐⭐ 为视频重采样提供了全新范式，有实际应用前景