SPDMark: Selective Parameter Displacement for Robust Video Watermarking¶

会议: CVPR 2026
arXiv: 2512.12090
代码: 有（论文中提及）
领域: 扩散模型 / 视频水印
关键词: 视频水印, 参数位移, LoRA, 扩散模型, 鲁棒性

一句话总结¶

SPDMark 提出了一种基于选择性参数位移（SPD）的视频扩散模型内嵌水印框架，通过在解码器中学习低秩基 shift 字典并根据水印密钥选择组合，实现了逐帧水印嵌入、不可感知、高鲁棒性和低计算开销，同时支持时序篡改检测与定位。

研究背景与动机¶

领域现状：高质量视频生成模型（如 Sora、SVD）的出现使得 AI 生成视频的溯源问题日益严峻。EU AI Act 和美国 AI 行政令均建议对 AI 生成内容添加水印。视频水印需同时满足不可感知性、鲁棒性和计算效率三个要求。
现有痛点：(a) 后处理方法（如 VideoSeal）增加延迟且无法利用生成先验；(b) 噪声空间方法（如 VideoShield）通过 DDIM inversion 解码，计算开销大且易受扰动影响；(c) 模型微调方法（如 LVMark）统一调制所有层限制了逐帧控制，VidSig 只嵌入单一固定签名无法检测时序篡改。三类方法在不可感知性、鲁棒性和效率之间存在此消彼长。
核心矛盾：如何在不牺牲视频质量的前提下，实现高效的多密钥逐帧水印嵌入，且能检测帧级时序篡改？
本文目标 设计一种 in-generation 视频水印方案，支持任意密钥、逐帧水印、时序篡改检测，且计算开销可忽略。
切入角度：不扰动像素或噪声，而是通过学习一组低秩基 shift 的字典，根据水印密钥选择性地位移生成模型的参数来嵌入水印。
核心 idea：学习一个固定的 LoRA 基 shift 字典，每个帧的水印密钥决定每层选择哪个基 shift，从而在解码器参数空间中嵌入逐帧水印，无需推理开销也无需逐密钥重训。

方法详解¶

整体框架¶

SPDMark 的 pipeline：(1) 给定视频级密钥 \(K_{base}\)，通过密码学哈希函数为每帧生成唯一水印消息 \(\kappa_t\)；(2) 每个 \(\kappa_t\) 映射为二进制 mask \(\mathbf{b}(\kappa_t)\)，选择解码器每层的一个 LoRA 基 shift；(3) 用位移后的解码器生成水印视频 \(\tilde{\mathbf{x}}\)；(4) 逐帧提取水印后，用最大二部图匹配和假设检验验证水印有效性并定位时序篡改。

关键设计¶

选择性参数位移框架（Selective Parameter Displacement）:
- 功能：将水印密钥编码为生成模型的参数位移
- 核心思路：将生成模型参数分为不修改部分 \(\Phi_U\) 和待修改部分 \(\Phi_M\)（仅解码器）。\(\Phi_M\) 跨 \(L\) 层，每层有 \(P\) 个基 shift \(\zeta_{\ell,p}\)，位移为 \(\Delta\phi_\ell = \sum_{p=1}^P b_{\ell,p} \zeta_{\ell,p}\)。密钥到 mask 的映射：将 \(M = L\log_2 P\) 位密钥分为 \(L\) 个 chunk，每个 chunk 的十进制值决定选择该层哪个基 shift。实际上每层只选一个基 shift，位移 \(\Delta\Phi_M(\kappa) = [\zeta_{1,i_1+1}, \ldots, \zeta_{L,i_L+1}]^T\)。
- 设计动机：全参数位移空间太大不可学习，通过分解为层级基 shift 的选择问题大幅降低搜索空间。用固定字典支持任意密钥而无需逐密钥重训。
基于 LoRA 的参数高效实现:
- 功能：参数高效地实现基 shift
- 核心思路：每个基 shift \(\zeta_{\ell,p} = A_{\ell,p} B_{\ell,p}\)，其中 \(A \in \mathbb{R}^{d \times r}, B \in \mathbb{R}^{r \times d}, r \ll d\)（论文中 \(r=32\)）。位移后的层输出为 \(\mathbf{h}_\ell = \mathcal{F}_{\phi_\ell}(\mathbf{h}_{\ell-1}) + \alpha \mathcal{F}_{\Delta\phi_\ell}(\mathbf{h}_{\ell-1})\)。具体应用于解码器的 \(L=14\) 个空间 ResNet 块，每块 \(P=4\) 个 LoRA，共 \(\log_2 4 = 2\) bit/层，每帧 payload 为 28 bit。
- 设计动机：直接学习全秩 shift 参数量太大，LoRA 低秩分解既保证表达力又极大降低参数，使方案可部署在大模型上。
逐帧水印与时序篡改检测:
- 功能：嵌入帧级唯一水印消息，支持帧级篡改定位
- 核心思路：用 HMAC-SHA256 从基密钥和帧号生成帧级消息 \(\kappa_t = \text{Trunc}_M(\mathcal{H}(K_{base}, t))\)。提取时用 ResNet-50 逐帧提取 28 维 logits。验证时构建参考消息 \(\mathbf{K}\) 和提取消息 \(\hat{\mathbf{K}}\) 的二部图，边权重为 Hamming 相似度 \(\bar{S}_{m,n} = 1 - \psi(\kappa_m, \hat{\kappa}_n)/M\)，用 Hungarian 算法做最大权重匹配。然后通过二项分布假设检验（帧级阈值 \(\tau_f\) 和视频级阈值 \(\tau_v\)）判断水印有效性。未匹配帧就是被篡改的帧。
- 设计动机：逐帧唯一消息使得帧级别的删除、交换、插入都能通过匹配失败被检测到，这是此前仅嵌入单一签名的方法做不到的。

损失函数 / 训练策略¶

总损失 \(\min_{\zeta,\eta} \mathcal{L}_{imp}(\mathbf{x}, \tilde{\mathbf{x}}) + \mathcal{L}_{rec}(\mathcal{V}_\eta(\tilde{\mathbf{x}}), \kappa)\)。消息恢复损失用 BCElogits；不可感知性损失 \(\mathcal{L}_{imp} = \lambda_{ps} \mathbb{E}_t[\text{LPIPS}(x_t, \tilde{x}_t)] + \lambda_{tc} \mathbb{E}_t[\|\delta y_t - \delta \tilde{y}_t\|_1]\)，其中 LPIPS 保证感知相似度，时序一致性损失（亮度差的 L1）防止闪烁。训练在 OpenVid-1M 的 10000 个视频上进行，对 \(\kappa, \mathbf{c}, \mathbf{z}\) 取期望优化。提取器用 ResNet-50（ImageNet 预训练），推理时对测试视频的所有帧做 batch normalization 以稳定预测。

实验关键数据¶

主实验（视频质量 + 水印检测）¶

SVD-XT 模型:

方法	Payload	Bit Acc↑	SC↑	BC↑	MS↑	IQ↑
VideoShield	512	0.979	0.954	0.954	0.956	0.695
VideoSeal	256	0.999	0.955	0.950	0.961	0.682
VidSig	48	0.958	0.951	0.953	0.956	0.693
SPDMark	28×25	0.995	0.966	0.958	0.975	0.690

鲁棒性实验（SVD-XT 平均 Bit Acc）¶

方法	光度攻击	时序攻击	后处理	平均
VideoShield	~0.82	~0.94	~0.83	0.833
VideoSeal	~0.94	~1.00	~0.82	0.912
VidSig	~0.66	~0.96	~0.53	0.685
SPDMark	~0.94	~0.99	~0.89	0.935

消融实验¶

配置	关键指标	说明
Full SPDMark	Avg Bit Acc 0.935	完整模型
SPDMark 在 ModelScope 上	Avg Bit Acc 高	跨架构（UNet→DiT）泛化
时序篡改定位	高 Precision/Recall/F1	帧删除/插入/交换均可检测

关键发现¶

SPDMark 在视频质量指标（SC/BC/MS）上一致优于所有对比方法，说明参数位移方式对视觉质量影响最小
在鲁棒性方面平均 Bit Acc 达 0.935，超越 VideoSeal（0.912）和 VideoShield（0.833）
在 Screen Recording 攻击下 SPDMark 达 0.837 远超 VideoSeal 的 0.598，说明生成式水印比后处理水印更鲁棒
在 Crop&Drop 复合攻击下 SPDMark（0.856）显著优于其他方法（0.458-0.513）
逐帧水印使得时序篡改（帧删除、交换、插入）均可被检测和定位

亮点与洞察¶

参数空间水印是一个巧妙的范式转换：不在像素或噪声空间操作，而是在模型参数空间嵌入水印，天然继承了模型的生成质量，开销极低
LoRA 基 shift 字典支持无限密钥：一次训练字典后，任意新密钥只需选择不同组合，无需重训。这比 per-key fine-tuning 高效得多
密码学哈希生成帧级消息 + Hungarian 匹配验证：将密码学工具与图匹配算法结合，优雅地解决了时序篡改检测问题，这个框架可以推广到其他需要序列完整性验证的场景

局限与展望¶

每帧仅 28 bit payload，容量有限（14 层 × 2 bit/层），增加位深需要更多 LoRA 基或更多层
仅在解码器上做水印，如果攻击者替换解码器则水印失效（但这在 API 控制场景下不太可能）
提取器使用 ResNet-50 相对简单，对极端攻击（如高压缩比 H.265）可能不够鲁棒
训练需要成对的 watermarked/non-watermarked 视频，数据成本较高

评分¶

新颖性: ⭐⭐⭐⭐⭐ 参数位移框架和 LoRA 基 shift 字典的设计非常新颖，时序篡改检测机制优雅
实验充分度: ⭐⭐⭐⭐ 覆盖两种生成架构和多种攻击类型，但消融实验可以更详细
写作质量: ⭐⭐⭐⭐ 形式化推导清晰，但符号较多需要仔细阅读
价值: ⭐⭐⭐⭐⭐ 高度实用的视频水印方案，直接可部署到视频生成 API 服务中