Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking¶

会议: NeurIPS 2025
arXiv: 2505.12667
代码: https://github.com/Sugewud/Safe-Sora (有)
领域: 视频生成 / 数字水印 / 版权保护
关键词: 图形水印, 视频生成, Mamba, 3D小波变换, 自适应匹配

一句话总结¶

Safe-Sora 首次将图形水印（如logo图像）直接嵌入到视频生成管线中，通过分层粗到细自适应匹配将水印patch分配到视觉最相似的帧和区域，并设计3D小波变换增强Mamba架构实现时空融合，在视频质量（FVD 3.77 vs 次优154.35）和水印保真度上大幅超越所有基线。

背景与动机¶

生成式视频模型（如Sora、VideoCrafter2、Open-Sora）的爆发式增长带来了AI生成内容的版权保护需求。图像生成领域已有成熟的隐形水印方案，但视频生成水印仍严重欠缺。现有少数视频水印方法（VideoShield、LVMark）仅嵌入低容量的二进制串，未能利用视频天然的高信息容量。视频具有远大于图像的嵌入带宽，完全适合嵌入图形水印（logo/图标），这种直观可视化的版权标识在实际验证中更具说服力和可靠性。

作者观察到一个关键现象：水印嵌入效果与水印和载体内容的视觉相似度高度相关。用经典图像隐写网络在1000对图像上测试，当载体图像与水印视觉相似度越高（LPIPS越低），嵌入后图像质量（PSNR）和提取水印质量都显著提升。这一发现直接启发了方法的核心设计。

核心问题¶

如何在视频生成过程中嵌入图形水印——不是简单的二进制串，而是完整的logo图像，这需要远更高的信息容量和嵌入精度
如何解决水印-载体视觉差异大导致嵌入质量差的问题——需要找到视频中与水印最匹配的时空位置
如何在时空维度上融合和提取分散嵌入的水印信息——水印patch分散在不同帧的不同区域，需要有效的时空建模

方法详解¶

整体框架¶

Safe-Sora的pipeline分三个阶段：

输入：视频潜变量（来自视频生成模型的latent空间）+ 图形水印图像
输出：含水印的生成视频，以及从含水印视频中提取出的水印图像

粗到细自适应patch匹配：将水印图像切成patch，自适应分配到最相似的帧和空间区域
水印嵌入：通过UNet结构的2D SFMamba块融合水印特征与多尺度视频特征，再用3D SFMamba块进行时空交互，生成含水印视频
水印提取：含水印视频经过退化层模拟、3D SFMamba块和位置恢复，重建出原始水印图像

关键设计¶

粗到细自适应Patch匹配（CFAPM）：首先给每个水印patch添加位置通道（用二进制编码表示patch序号，冗余复制增强鲁棒性）。然后分两阶段匹配：
粗阶段（帧级）：用卷积+ReLU+GAP提取patch和视频帧latent的特征，计算点积相似度，将patch分配到最相似帧（有容量上限，溢出则分配次优帧）
细阶段（区域级）：在被选帧内划分空间区域，同样计算patch与区域的相似度，将patch放到最匹配的空间位置

这里的巧妙之处是直接复用视频生成模型的latent表示作为特征，只需单层卷积即可提取特征，几乎零额外开销。

Spatial-Frequency Mamba (SFMamba)块：双流设计，同时处理空间域和频率域信息：
空间分支：LayerNorm → 分两路（SiLU激活路 + Conv1×1→Mamba路）→ 逐元素相乘
频率分支：2D DWT将特征分解为LL/LH/HL/HH四个子带 → 重排恢复分辨率 → FreqMamba扫描 → 2D IDWT逆变换 → 与SiLU路相乘
两分支输出拼接后用1×1卷积融合

2D版用于UNet中的空间融合，3D版用于时空交互。

3D时空局部扫描策略：3D SFMamba的频率分支使用3D DWT解析出8个子带（LLL到HHH），提出层级式双向扫描：
前向：从LLL→LLH→LHL→HLL→LHH→HLH→HHL→HHH（低频到高频）
反向：从HHH到LLL（高频到低频）
每个子带内采用空间优先、时间在后的扫描顺序

这是首次将状态空间模型应用于水印领域，通过层级频率扫描有效捕获跨时空的长程依赖。

损失函数 / 训练策略¶

视频重建损失：\(\mathcal{L}_{\text{video}} = \text{MSE}(\mathbf{V}, \hat{\mathbf{V}})\)
水印重建损失：\(\mathcal{L}_{\text{watermark}} = \text{MSE}(\mathbf{W}, \hat{\mathbf{W}})\)
总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{video}} + \lambda \mathcal{L}_{\text{watermark}}\)，\(\lambda=0.75\)
训练时提供正确位置用于重建水印，测试时用嵌入的位置通道预测patch排列
退化层模拟H.264压缩（用3D CNN近似不可微分的H.264）、旋转等真实世界变换
位置恢复使用置信度引导的贪心分配算法处理冲突
AdamW优化器，初始lr 5e-4 cosine衰减到1e-6，30 epochs，4×RTX 4090

实验关键数据¶

方法	水印PSNR↑	水印SSIM↑	视频PSNR↑	视频SSIM↑	视频LPIPS↓	tLP↓	FVD↓
Balujanet	25.28	0.91	25.26	0.87	0.25	1.32	512.22
UDH	22.90	0.77	27.75	0.73	0.32	2.09	1075.62
PUSNet	28.86	0.93	29.98	0.92	0.11	0.98	154.35
Safe-SD	24.24	0.84	22.32	0.75	0.24	1.87	849.83
WengNet	33.18	0.96	28.09	0.85	0.21	1.27	265.82
Safe-Sora	37.71	0.97	42.50	0.98	0.01	0.38	3.77

FVD从次优的154.35降到3.77（降低97.6%），水印PSNR提升4.5dB+，视频PSNR提升12.5dB+。在Open-Sora backbone上同样有效（FVD 3.04）。

鲁棒性方面：在随机擦除（5-20%）、高斯模糊（kernel 3/5/7）、高斯噪声（σ~U(0,0.2)）、旋转（±30°）和H.264压缩（CRF=24）各种攻击下均保持最优性能，尤其在H.264压缩下所有基线大幅掉点，但Safe-Sora仍维持高水印质量。

消融实验要点¶

变体	水印PSNR	视频PSNR	FVD
w/o CFAPM（去掉自适应匹配）	36.71	39.68	16.87
w/o RtL（不用latent路由）	36.36	40.23	6.37
w/o FS（去掉细阶段）	36.88	41.25	4.82
w/o SLS（去掉时空局部扫描）	35.96	38.42	13.16
w/o SFS（时间优先扫描）	36.41	42.21	5.24
w/o MSFI（去掉多尺度特征注入）	36.56	39.39	14.11
完整模型	37.71	42.50	3.77

CFAPM贡献最大：去掉自适应匹配FVD从3.77飙到16.87，水印和视频质量均明显下降
时空局部扫描很关键：替换为vanilla 3D扫描后FVD飙到13.16
多尺度特征注入：利用VAE的多尺度特征显著改善视频质量（FVD 14.11→3.77）
空间优先扫描在水印保真和整体质量上优于时间优先（后者仅在tLP略优）

亮点¶

观察驱动的设计理念：从"水印与载体视觉相似度影响嵌入效果"这一实验观察出发，设计粗到细匹配机制，思路清晰且有说服力
首次将SSM/Mamba引入水印领域：3D小波变换Mamba结合层级频率扫描，是非常新颖的架构组合
位置通道设计：用二进制位置编码直接拼接到patch中，简单而高效地解决了分散patch重组问题
复用latent特征做相似度匹配，几乎零额外计算，工程上很优雅
跨backbone泛化：在UNet-based（VideoCrafter2）和DiT-based（Open-Sora）上均work

局限性 / 可改进方向¶

仅支持静态图形水印：当前只能嵌入logo/图标等静态图像水印，不支持动态视频水印（如动画序列、时间动态模式），这是作者明确承认的局限
分辨率和帧数的泛化性：实验固定在320×512分辨率、8帧，对高分辨率长视频的效果待验证
退化层模拟的真实性：用3D CNN近似H.264是常见做法，但实际视频传播中的退化更复杂（社交平台压缩、截屏重录等）
可能被恶意利用：作者在社会影响部分提到可能被用于虚假版权声明
扩展方向→ 可考虑将图形水印扩展为视频水印（嵌入视频序列到视频中），或结合文本提示实现条件水印

与相关工作的对比¶

vs VideoShield/LVMark：这两个现有视频生成水印方法只嵌入二进制串，信息量低；Safe-Sora嵌入完整图形水印，信息量和直观性远高。且二者在实验中未被直接对比（因为任务形式不同——二进制vs图形）
vs Safe-SD：Safe-SD是图像生成领域的图形水印方法，Safe-Sora将其扩展到视频。定量对比中Safe-SD的视频PSNR仅22.32、FVD 849.83，远逊于Safe-Sora，说明图像方法直接逐帧应用到视频时时间一致性极差
vs PUSNet：SOTA图像隐写方法，虽然单帧质量尚可（视频PSNR 29.98），但FVD 154.35暴露了帧间不一致的致命缺陷。Safe-Sora通过3D Mamba的时空建模彻底解决了这一问题

启发与关联¶

与 ideas 中的语义分区水印溯源方案有直接关联：Safe-Sora的粗到细匹配思想类似于语义分区，但在视频域执行；水印的嵌入-提取-验证流程可参考
"相似度驱动嵌入"的思想可迁移到其他信息隐藏任务：在任何需要将信息融入载体的任务中，先找最相似区域再嵌入都可能提升效果
Mamba在频率域的应用模式（3D DWT + 层级扫描）可迁移到视频理解、视频修复等需要时空频率建模的任务
位置通道的二进制编码设计在多patch/多token恢复场景中通用性强

评分¶

新颖性: ⭐⭐⭐⭐ 首次将图形水印引入视频生成、首次将Mamba应用于水印，两个"首次"有足够新意，但整体框架是已有思想的新组合
实验充分度: ⭐⭐⭐⭐ 五个基线对比、多种攻击鲁棒性测试、详细消融、两种backbone验证，覆盖较全；但测试规模（100个prompt）偏小
写作质量: ⭐⭐⭐⭐ 经验观察→方法设计的叙事流畅，图表清晰；部分公式和符号较冗余
价值: ⭐⭐⭐⭐ 开辟了视频生成图形水印这一新方向，具有实际版权保护应用价值，但落地还需解决更多真实场景的退化鲁棒性