Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking¶
会议: NeurIPS 2025
arXiv: 2505.12667
代码: https://github.com/Sugewud/Safe-Sora (有)
领域: 视频生成 / 数字水印 / 版权保护
关键词: 图形水印, 视频生成, Mamba, 3D小波变换, 自适应匹配
一句话总结¶
Safe-Sora 首次将图形水印(如logo图像)直接嵌入到视频生成管线中,通过分层粗到细自适应匹配将水印patch分配到视觉最相似的帧和区域,并设计3D小波变换增强Mamba架构实现时空融合,在视频质量(FVD 3.77 vs 次优154.35)和水印保真度上大幅超越所有基线。
背景与动机¶
生成式视频模型(如Sora、VideoCrafter2、Open-Sora)的爆发式增长带来了AI生成内容的版权保护需求。图像生成领域已有成熟的隐形水印方案,但视频生成水印仍严重欠缺。现有少数视频水印方法(VideoShield、LVMark)仅嵌入低容量的二进制串,未能利用视频天然的高信息容量。视频具有远大于图像的嵌入带宽,完全适合嵌入图形水印(logo/图标),这种直观可视化的版权标识在实际验证中更具说服力和可靠性。
作者观察到一个关键现象:水印嵌入效果与水印和载体内容的视觉相似度高度相关。用经典图像隐写网络在1000对图像上测试,当载体图像与水印视觉相似度越高(LPIPS越低),嵌入后图像质量(PSNR)和提取水印质量都显著提升。这一发现直接启发了方法的核心设计。
核心问题¶
- 如何在视频生成过程中嵌入图形水印——不是简单的二进制串,而是完整的logo图像,这需要远更高的信息容量和嵌入精度
- 如何解决水印-载体视觉差异大导致嵌入质量差的问题——需要找到视频中与水印最匹配的时空位置
- 如何在时空维度上融合和提取分散嵌入的水印信息——水印patch分散在不同帧的不同区域,需要有效的时空建模
方法详解¶
整体框架¶
Safe-Sora的pipeline分三个阶段:
输入:视频潜变量(来自视频生成模型的latent空间)+ 图形水印图像
输出:含水印的生成视频,以及从含水印视频中提取出的水印图像
- 粗到细自适应patch匹配:将水印图像切成patch,自适应分配到最相似的帧和空间区域
- 水印嵌入:通过UNet结构的2D SFMamba块融合水印特征与多尺度视频特征,再用3D SFMamba块进行时空交互,生成含水印视频
- 水印提取:含水印视频经过退化层模拟、3D SFMamba块和位置恢复,重建出原始水印图像
关键设计¶
- 粗到细自适应Patch匹配(CFAPM):首先给每个水印patch添加位置通道(用二进制编码表示patch序号,冗余复制增强鲁棒性)。然后分两阶段匹配:
- 粗阶段(帧级):用卷积+ReLU+GAP提取patch和视频帧latent的特征,计算点积相似度,将patch分配到最相似帧(有容量上限,溢出则分配次优帧)
- 细阶段(区域级):在被选帧内划分空间区域,同样计算patch与区域的相似度,将patch放到最匹配的空间位置
这里的巧妙之处是直接复用视频生成模型的latent表示作为特征,只需单层卷积即可提取特征,几乎零额外开销。
- Spatial-Frequency Mamba (SFMamba)块:双流设计,同时处理空间域和频率域信息:
- 空间分支:LayerNorm → 分两路(SiLU激活路 + Conv1×1→Mamba路)→ 逐元素相乘
- 频率分支:2D DWT将特征分解为LL/LH/HL/HH四个子带 → 重排恢复分辨率 → FreqMamba扫描 → 2D IDWT逆变换 → 与SiLU路相乘
- 两分支输出拼接后用1×1卷积融合
2D版用于UNet中的空间融合,3D版用于时空交互。
- 3D时空局部扫描策略:3D SFMamba的频率分支使用3D DWT解析出8个子带(LLL到HHH),提出层级式双向扫描:
- 前向:从LLL→LLH→LHL→HLL→LHH→HLH→HHL→HHH(低频到高频)
- 反向:从HHH到LLL(高频到低频)
- 每个子带内采用空间优先、时间在后的扫描顺序
这是首次将状态空间模型应用于水印领域,通过层级频率扫描有效捕获跨时空的长程依赖。
损失函数 / 训练策略¶
- 视频重建损失:\(\mathcal{L}_{\text{video}} = \text{MSE}(\mathbf{V}, \hat{\mathbf{V}})\)
- 水印重建损失:\(\mathcal{L}_{\text{watermark}} = \text{MSE}(\mathbf{W}, \hat{\mathbf{W}})\)
- 总损失:\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{video}} + \lambda \mathcal{L}_{\text{watermark}}\),\(\lambda=0.75\)
- 训练时提供正确位置用于重建水印,测试时用嵌入的位置通道预测patch排列
- 退化层模拟H.264压缩(用3D CNN近似不可微分的H.264)、旋转等真实世界变换
- 位置恢复使用置信度引导的贪心分配算法处理冲突
- AdamW优化器,初始lr 5e-4 cosine衰减到1e-6,30 epochs,4×RTX 4090
实验关键数据¶
| 方法 | 水印PSNR↑ | 水印SSIM↑ | 视频PSNR↑ | 视频SSIM↑ | 视频LPIPS↓ | tLP↓ | FVD↓ |
|---|---|---|---|---|---|---|---|
| Balujanet | 25.28 | 0.91 | 25.26 | 0.87 | 0.25 | 1.32 | 512.22 |
| UDH | 22.90 | 0.77 | 27.75 | 0.73 | 0.32 | 2.09 | 1075.62 |
| PUSNet | 28.86 | 0.93 | 29.98 | 0.92 | 0.11 | 0.98 | 154.35 |
| Safe-SD | 24.24 | 0.84 | 22.32 | 0.75 | 0.24 | 1.87 | 849.83 |
| WengNet | 33.18 | 0.96 | 28.09 | 0.85 | 0.21 | 1.27 | 265.82 |
| Safe-Sora | 37.71 | 0.97 | 42.50 | 0.98 | 0.01 | 0.38 | 3.77 |
FVD从次优的154.35降到3.77(降低97.6%),水印PSNR提升4.5dB+,视频PSNR提升12.5dB+。在Open-Sora backbone上同样有效(FVD 3.04)。
鲁棒性方面:在随机擦除(5-20%)、高斯模糊(kernel 3/5/7)、高斯噪声(σ~U(0,0.2))、旋转(±30°)和H.264压缩(CRF=24)各种攻击下均保持最优性能,尤其在H.264压缩下所有基线大幅掉点,但Safe-Sora仍维持高水印质量。
消融实验要点¶
| 变体 | 水印PSNR | 视频PSNR | FVD |
|---|---|---|---|
| w/o CFAPM(去掉自适应匹配) | 36.71 | 39.68 | 16.87 |
| w/o RtL(不用latent路由) | 36.36 | 40.23 | 6.37 |
| w/o FS(去掉细阶段) | 36.88 | 41.25 | 4.82 |
| w/o SLS(去掉时空局部扫描) | 35.96 | 38.42 | 13.16 |
| w/o SFS(时间优先扫描) | 36.41 | 42.21 | 5.24 |
| w/o MSFI(去掉多尺度特征注入) | 36.56 | 39.39 | 14.11 |
| 完整模型 | 37.71 | 42.50 | 3.77 |
- CFAPM贡献最大:去掉自适应匹配FVD从3.77飙到16.87,水印和视频质量均明显下降
- 时空局部扫描很关键:替换为vanilla 3D扫描后FVD飙到13.16
- 多尺度特征注入:利用VAE的多尺度特征显著改善视频质量(FVD 14.11→3.77)
- 空间优先扫描在水印保真和整体质量上优于时间优先(后者仅在tLP略优)
亮点¶
- 观察驱动的设计理念:从"水印与载体视觉相似度影响嵌入效果"这一实验观察出发,设计粗到细匹配机制,思路清晰且有说服力
- 首次将SSM/Mamba引入水印领域:3D小波变换Mamba结合层级频率扫描,是非常新颖的架构组合
- 位置通道设计:用二进制位置编码直接拼接到patch中,简单而高效地解决了分散patch重组问题
- 复用latent特征做相似度匹配,几乎零额外计算,工程上很优雅
- 跨backbone泛化:在UNet-based(VideoCrafter2)和DiT-based(Open-Sora)上均work
局限性 / 可改进方向¶
- 仅支持静态图形水印:当前只能嵌入logo/图标等静态图像水印,不支持动态视频水印(如动画序列、时间动态模式),这是作者明确承认的局限
- 分辨率和帧数的泛化性:实验固定在320×512分辨率、8帧,对高分辨率长视频的效果待验证
- 退化层模拟的真实性:用3D CNN近似H.264是常见做法,但实际视频传播中的退化更复杂(社交平台压缩、截屏重录等)
- 可能被恶意利用:作者在社会影响部分提到可能被用于虚假版权声明
- 扩展方向→ 可考虑将图形水印扩展为视频水印(嵌入视频序列到视频中),或结合文本提示实现条件水印
与相关工作的对比¶
- vs VideoShield/LVMark:这两个现有视频生成水印方法只嵌入二进制串,信息量低;Safe-Sora嵌入完整图形水印,信息量和直观性远高。且二者在实验中未被直接对比(因为任务形式不同——二进制vs图形)
- vs Safe-SD:Safe-SD是图像生成领域的图形水印方法,Safe-Sora将其扩展到视频。定量对比中Safe-SD的视频PSNR仅22.32、FVD 849.83,远逊于Safe-Sora,说明图像方法直接逐帧应用到视频时时间一致性极差
- vs PUSNet:SOTA图像隐写方法,虽然单帧质量尚可(视频PSNR 29.98),但FVD 154.35暴露了帧间不一致的致命缺陷。Safe-Sora通过3D Mamba的时空建模彻底解决了这一问题
启发与关联¶
- 与 ideas 中的 语义分区水印溯源方案 有直接关联:Safe-Sora的粗到细匹配思想类似于语义分区,但在视频域执行;水印的嵌入-提取-验证流程可参考
- "相似度驱动嵌入"的思想可迁移到其他信息隐藏任务:在任何需要将信息融入载体的任务中,先找最相似区域再嵌入都可能提升效果
- Mamba在频率域的应用模式(3D DWT + 层级扫描)可迁移到视频理解、视频修复等需要时空频率建模的任务
- 位置通道的二进制编码设计在多patch/多token恢复场景中通用性强
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将图形水印引入视频生成、首次将Mamba应用于水印,两个"首次"有足够新意,但整体框架是已有思想的新组合
- 实验充分度: ⭐⭐⭐⭐ 五个基线对比、多种攻击鲁棒性测试、详细消融、两种backbone验证,覆盖较全;但测试规模(100个prompt)偏小
- 写作质量: ⭐⭐⭐⭐ 经验观察→方法设计的叙事流畅,图表清晰;部分公式和符号较冗余
- 价值: ⭐⭐⭐⭐ 开辟了视频生成图形水印这一新方向,具有实际版权保护应用价值,但落地还需解决更多真实场景的退化鲁棒性