跳转至

Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

会议: NeurIPS 2025
arXiv: 2505.12667
代码: https://github.com/Sugewud/Safe-Sora (有)
领域: 视频生成 / 数字水印 / 版权保护
关键词: 图形水印, 视频生成, Mamba, 3D小波变换, 自适应匹配

一句话总结

Safe-Sora 首次将图形水印(如logo图像)直接嵌入到视频生成管线中,通过分层粗到细自适应匹配将水印patch分配到视觉最相似的帧和区域,并设计3D小波变换增强Mamba架构实现时空融合,在视频质量(FVD 3.77 vs 次优154.35)和水印保真度上大幅超越所有基线。

背景与动机

生成式视频模型(如Sora、VideoCrafter2、Open-Sora)的爆发式增长带来了AI生成内容的版权保护需求。图像生成领域已有成熟的隐形水印方案,但视频生成水印仍严重欠缺。现有少数视频水印方法(VideoShield、LVMark)仅嵌入低容量的二进制串,未能利用视频天然的高信息容量。视频具有远大于图像的嵌入带宽,完全适合嵌入图形水印(logo/图标),这种直观可视化的版权标识在实际验证中更具说服力和可靠性。

作者观察到一个关键现象:水印嵌入效果与水印和载体内容的视觉相似度高度相关。用经典图像隐写网络在1000对图像上测试,当载体图像与水印视觉相似度越高(LPIPS越低),嵌入后图像质量(PSNR)和提取水印质量都显著提升。这一发现直接启发了方法的核心设计。

核心问题

  1. 如何在视频生成过程中嵌入图形水印——不是简单的二进制串,而是完整的logo图像,这需要远更高的信息容量和嵌入精度
  2. 如何解决水印-载体视觉差异大导致嵌入质量差的问题——需要找到视频中与水印最匹配的时空位置
  3. 如何在时空维度上融合和提取分散嵌入的水印信息——水印patch分散在不同帧的不同区域,需要有效的时空建模

方法详解

整体框架

Safe-Sora的pipeline分三个阶段:

输入:视频潜变量(来自视频生成模型的latent空间)+ 图形水印图像
输出:含水印的生成视频,以及从含水印视频中提取出的水印图像

  1. 粗到细自适应patch匹配:将水印图像切成patch,自适应分配到最相似的帧和空间区域
  2. 水印嵌入:通过UNet结构的2D SFMamba块融合水印特征与多尺度视频特征,再用3D SFMamba块进行时空交互,生成含水印视频
  3. 水印提取:含水印视频经过退化层模拟、3D SFMamba块和位置恢复,重建出原始水印图像

关键设计

  1. 粗到细自适应Patch匹配(CFAPM):首先给每个水印patch添加位置通道(用二进制编码表示patch序号,冗余复制增强鲁棒性)。然后分两阶段匹配:
  2. 粗阶段(帧级):用卷积+ReLU+GAP提取patch和视频帧latent的特征,计算点积相似度,将patch分配到最相似帧(有容量上限,溢出则分配次优帧)
  3. 细阶段(区域级):在被选帧内划分空间区域,同样计算patch与区域的相似度,将patch放到最匹配的空间位置

这里的巧妙之处是直接复用视频生成模型的latent表示作为特征,只需单层卷积即可提取特征,几乎零额外开销。

  1. Spatial-Frequency Mamba (SFMamba)块:双流设计,同时处理空间域和频率域信息:
  2. 空间分支:LayerNorm → 分两路(SiLU激活路 + Conv1×1→Mamba路)→ 逐元素相乘
  3. 频率分支:2D DWT将特征分解为LL/LH/HL/HH四个子带 → 重排恢复分辨率 → FreqMamba扫描 → 2D IDWT逆变换 → 与SiLU路相乘
  4. 两分支输出拼接后用1×1卷积融合

2D版用于UNet中的空间融合,3D版用于时空交互。

  1. 3D时空局部扫描策略:3D SFMamba的频率分支使用3D DWT解析出8个子带(LLL到HHH),提出层级式双向扫描
  2. 前向:从LLL→LLH→LHL→HLL→LHH→HLH→HHL→HHH(低频到高频)
  3. 反向:从HHH到LLL(高频到低频)
  4. 每个子带内采用空间优先、时间在后的扫描顺序

这是首次将状态空间模型应用于水印领域,通过层级频率扫描有效捕获跨时空的长程依赖。

损失函数 / 训练策略

  • 视频重建损失\(\mathcal{L}_{\text{video}} = \text{MSE}(\mathbf{V}, \hat{\mathbf{V}})\)
  • 水印重建损失\(\mathcal{L}_{\text{watermark}} = \text{MSE}(\mathbf{W}, \hat{\mathbf{W}})\)
  • 总损失\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{video}} + \lambda \mathcal{L}_{\text{watermark}}\)\(\lambda=0.75\)
  • 训练时提供正确位置用于重建水印,测试时用嵌入的位置通道预测patch排列
  • 退化层模拟H.264压缩(用3D CNN近似不可微分的H.264)、旋转等真实世界变换
  • 位置恢复使用置信度引导的贪心分配算法处理冲突
  • AdamW优化器,初始lr 5e-4 cosine衰减到1e-6,30 epochs,4×RTX 4090

实验关键数据

方法 水印PSNR↑ 水印SSIM↑ 视频PSNR↑ 视频SSIM↑ 视频LPIPS↓ tLP↓ FVD↓
Balujanet 25.28 0.91 25.26 0.87 0.25 1.32 512.22
UDH 22.90 0.77 27.75 0.73 0.32 2.09 1075.62
PUSNet 28.86 0.93 29.98 0.92 0.11 0.98 154.35
Safe-SD 24.24 0.84 22.32 0.75 0.24 1.87 849.83
WengNet 33.18 0.96 28.09 0.85 0.21 1.27 265.82
Safe-Sora 37.71 0.97 42.50 0.98 0.01 0.38 3.77

FVD从次优的154.35降到3.77(降低97.6%),水印PSNR提升4.5dB+,视频PSNR提升12.5dB+。在Open-Sora backbone上同样有效(FVD 3.04)。

鲁棒性方面:在随机擦除(5-20%)、高斯模糊(kernel 3/5/7)、高斯噪声(σ~U(0,0.2))、旋转(±30°)和H.264压缩(CRF=24)各种攻击下均保持最优性能,尤其在H.264压缩下所有基线大幅掉点,但Safe-Sora仍维持高水印质量。

消融实验要点

变体 水印PSNR 视频PSNR FVD
w/o CFAPM(去掉自适应匹配) 36.71 39.68 16.87
w/o RtL(不用latent路由) 36.36 40.23 6.37
w/o FS(去掉细阶段) 36.88 41.25 4.82
w/o SLS(去掉时空局部扫描) 35.96 38.42 13.16
w/o SFS(时间优先扫描) 36.41 42.21 5.24
w/o MSFI(去掉多尺度特征注入) 36.56 39.39 14.11
完整模型 37.71 42.50 3.77
  • CFAPM贡献最大:去掉自适应匹配FVD从3.77飙到16.87,水印和视频质量均明显下降
  • 时空局部扫描很关键:替换为vanilla 3D扫描后FVD飙到13.16
  • 多尺度特征注入:利用VAE的多尺度特征显著改善视频质量(FVD 14.11→3.77)
  • 空间优先扫描在水印保真和整体质量上优于时间优先(后者仅在tLP略优)

亮点

  • 观察驱动的设计理念:从"水印与载体视觉相似度影响嵌入效果"这一实验观察出发,设计粗到细匹配机制,思路清晰且有说服力
  • 首次将SSM/Mamba引入水印领域:3D小波变换Mamba结合层级频率扫描,是非常新颖的架构组合
  • 位置通道设计:用二进制位置编码直接拼接到patch中,简单而高效地解决了分散patch重组问题
  • 复用latent特征做相似度匹配,几乎零额外计算,工程上很优雅
  • 跨backbone泛化:在UNet-based(VideoCrafter2)和DiT-based(Open-Sora)上均work

局限性 / 可改进方向

  • 仅支持静态图形水印:当前只能嵌入logo/图标等静态图像水印,不支持动态视频水印(如动画序列、时间动态模式),这是作者明确承认的局限
  • 分辨率和帧数的泛化性:实验固定在320×512分辨率、8帧,对高分辨率长视频的效果待验证
  • 退化层模拟的真实性:用3D CNN近似H.264是常见做法,但实际视频传播中的退化更复杂(社交平台压缩、截屏重录等)
  • 可能被恶意利用:作者在社会影响部分提到可能被用于虚假版权声明
  • 扩展方向→ 可考虑将图形水印扩展为视频水印(嵌入视频序列到视频中),或结合文本提示实现条件水印

与相关工作的对比

  • vs VideoShield/LVMark:这两个现有视频生成水印方法只嵌入二进制串,信息量低;Safe-Sora嵌入完整图形水印,信息量和直观性远高。且二者在实验中未被直接对比(因为任务形式不同——二进制vs图形)
  • vs Safe-SD:Safe-SD是图像生成领域的图形水印方法,Safe-Sora将其扩展到视频。定量对比中Safe-SD的视频PSNR仅22.32、FVD 849.83,远逊于Safe-Sora,说明图像方法直接逐帧应用到视频时时间一致性极差
  • vs PUSNet:SOTA图像隐写方法,虽然单帧质量尚可(视频PSNR 29.98),但FVD 154.35暴露了帧间不一致的致命缺陷。Safe-Sora通过3D Mamba的时空建模彻底解决了这一问题

启发与关联

  • 与 ideas 中的 语义分区水印溯源方案 有直接关联:Safe-Sora的粗到细匹配思想类似于语义分区,但在视频域执行;水印的嵌入-提取-验证流程可参考
  • "相似度驱动嵌入"的思想可迁移到其他信息隐藏任务:在任何需要将信息融入载体的任务中,先找最相似区域再嵌入都可能提升效果
  • Mamba在频率域的应用模式(3D DWT + 层级扫描)可迁移到视频理解、视频修复等需要时空频率建模的任务
  • 位置通道的二进制编码设计在多patch/多token恢复场景中通用性强

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将图形水印引入视频生成、首次将Mamba应用于水印,两个"首次"有足够新意,但整体框架是已有思想的新组合
  • 实验充分度: ⭐⭐⭐⭐ 五个基线对比、多种攻击鲁棒性测试、详细消融、两种backbone验证,覆盖较全;但测试规模(100个prompt)偏小
  • 写作质量: ⭐⭐⭐⭐ 经验观察→方法设计的叙事流畅,图表清晰;部分公式和符号较冗余
  • 价值: ⭐⭐⭐⭐ 开辟了视频生成图形水印这一新方向,具有实际版权保护应用价值,但落地还需解决更多真实场景的退化鲁棒性