Where, What, Why: Toward Explainable 3D-GS Watermarking¶

会议: CVPR2026
arXiv: 2603.08809
作者: Mingshu Cai (Waseda University), Jiajun Li (Southeast University), Osamu Yoshie, Yuya Ieiri, Yixuan Li (NTU) 代码: 未开源
领域: 3d_vision
关键词: 3D Gaussian Splatting, 数字水印, 版权保护, 可解释性, 鲁棒嵌入

一句话总结¶

提出一种表示原生的 3D-GS 水印框架，通过 Trio-Experts 选载体（where）、Channel-wise Group Mask 控梯度（what）、解耦微调实现可审计归因（why），在渲染质量（PSNR +0.83 dB）和比特精度（+1.24%）上均超越 SOTA。

背景与动机¶

3D-GS 凭借显式参数化、实时渲染和高保真度，已成为 3D 内容创建的主流范式，广泛应用于影视、游戏、自动驾驶、数字人等领域。然而其核心优势——可直接编辑的高斯参数——也带来严重的安全风险：攻击者可轻松复制模型、篡改内容、剥离作者信息并非法再分发。

现有辐射场水印方法（WateRF、3DGSW、GuardSplat）在显式离散化高斯表示上存在两个核心缺口：

载体选择问题：如何从大规模异质高斯基元中，综合多视角可见性、频域线索、几何/外观稳定性来选择水印载体
鲁棒隐蔽嵌入问题：如何在不降低视觉/渲染质量的前提下嵌入鲁棒水印，并在裁剪、压缩、格式转换等常见扰动后仍可提取

核心问题¶

统一回答三个关键问题：Where（在哪些高斯上写水印）、What（写什么、如何控制更新幅度）、Why（为何选这些载体，可解释归因）。

方法详解¶

整体流程¶

整个框架分为三个阶段：

初始化：基于渲染贡献修剪冗余高斯 → Trio-Experts 提取先验 → SBAG 选载体并致密化
解耦微调：Channel-wise Group Mask 分路梯度 → 水印载体和视觉补偿器独立优化
推理/验证：从渲染视图中通过冻结解码器提取水印比特

3.1 贡献度修剪（Prune by Contribution）¶

预训练 3D-GS 模型通常包含大量冗余高斯。采用 3D-GSW 的贡献度修剪策略：引入临时颜色参数 \(C'\)，通过辅助 loss 计算梯度 \(V_\pi = \partial L_\pi^{aux}/\partial C'\) 作为贡献分数，剪除 \(V_\pi < 10^{-8}\) 的低影响高斯。

3.2 Trio-Experts：三专家载体先验提取¶

与先前方法依赖图像域梯度/高频启发式不同，本文提出 表示原生 的 Trio-Experts 系统，决策证据完全锚定在 3D-GS 参数空间中，确保视角一致的评估。

将高斯原生参数按语义分组：

\(\mathcal{C}_{geo} = \{\mathbf{x}, \mathbf{s}, \mathbf{q}\}\)（位置、尺度、旋转）
\(\mathcal{C}_{app} = \{\alpha, \mathbf{h}^{(0)}, \mathbf{h}^{(\geq 1)}\}\)（不透明度、SH 系数）
\(\mathcal{C}_{red} = \{\mathbf{x}, \mathbf{s}, \mathbf{q}, \mathbf{h}^{(0)}\}\)（用于冗余度估计）

在 3D 位置空间构建 \(k\)-NN 邻域 \(\mathcal{N}_k(i)\) 后，三个专家分别计算：

几何专家 \(z_1\)：基于 \(\mathcal{C}_{geo}\)，捕捉结构分解和边界线索来衡量几何稳定性。计算尺度各向同性 \(\text{Iso}_i = \min(\mathbf{s}_i)/\max(\mathbf{s}_i)\)、邻域四元数一致性 \(\text{RotCons}_i\)、以及紧凑足迹 \(\overline{fp}_i\)（几何均值）。高各向同性 + 高旋转一致性 + 小足迹 = 几何稳定的载体候选。

外观专家 \(z_2\)：基于 \(\mathcal{C}_{app}\)，通过 DC 带通、不透明度门控、高频抑制来衡量跨视角外观一致性。包含 AC 高频能量比 \(\rho_i^{hf}\)（越低越好）、双侧不透明度门 \(g(\alpha_i)\)（中等不透明度最佳）、DC 强度带通滤波 \(c_i\)。

冗余专家 \(z_3\)：基于 \(\mathcal{C}_{red}\)，刻画高斯间的分布密度，估计可替代性。通过重叠加权邻域相似度衡量：\(r_{ij}\) 结合颜色和形状相似性，\(w_{ij}\) 近似投影重叠。冗余度高的高斯更适合作水印载体（即使被扰动，周围高斯可补偿）。

每个专家 \(k\) 将特征 \(z_k(i)\) 映射为 证据包 \(E_k(i) = [U_k(i), S_k(i)]\)：

\(U_k \in [0,1]\)：不确定度（来自邻域离散度 + 专家特定惩罚）
\(S_k \in [0,1]\)：质量分数

这种质量-置信度解耦使得后续门控可感知置信度。

3.3 Safety and Budget-Aware Gate (SBAG)¶

SBAG 将载体选择解耦为排序和 预算分配 两步。

排序：将证据包映射为代理分数 \(R_k(i) = \text{clip}(S_k(i) - \beta U_k(i), 0, 1)\)，其中 \(R_1\) 是几何稳定性、\(R_2\) 是外观安全性、\(R_3\) 是冗余确定性。对称点级效用分数：

\[u_i = (R_1(i) \cdot R_2(i) \cdot R_3(i))^{1/3}\]

单次渲染估计：用 DC+不透明度渲染所有训练视图一次，获取视角修正的可见性 \(v_i\) 和场景拥挤因子 \(\eta\)。

自适应预算：给定消息长度 \(M\) 比特，自适应计算所需载体数量：

\[\kappa_{eff} = \kappa_0 \cdot \bar{v} \cdot \eta, \quad B = \lceil M / \kappa_{eff} \rceil\]

可行集与选择：定义基于分位数约束的可行集 \(\mathcal{F}\)（四维门限：几何、外观、冗余、可见性），从中按 \(u_i\) 取 top-\(B\) 构成初始载体集 \(\mathcal{WM}_0\)。

原型近邻扩展：为弥补视角覆盖间隙，构建紧凑证据向量 \(\mathbf{e}_i\)，计算 \(\mathcal{WM}_0\) 的原型均值 \(\boldsymbol{\mu}\)，通过余弦相似度招募近邻，扩展为 \(\mathcal{WM}_{parent}\)。

致密化分裂：每个父高斯分裂为 \(N_s\) 个视觉等价子高斯，一个路由到水印分支，其余作为视觉补偿器。最终得到 \(\mathcal{WM}_\star\)（水印载体集）和 \(\mathcal{VIS}\)（视觉补偿器集）。

3.4 Channel-wise Group Mask¶

为避免可见退化，为载体和补偿器分配逐通道掩码。五个参数通道组：\(g \in \{\boldsymbol{\delta}_{dc}, \boldsymbol{\rho}_{rest}, \boldsymbol{\omega}_{opa}, \boldsymbol{\theta}_{rot}, \boldsymbol{\sigma}_{sca}\}\)。

两类掩码的计算方式不同：

VIS 掩码 \(m_g^{vis}\)：取补偿器上通道权重的均值并 clip，保证最低更新下限 \(\text{floor}_g\)
WM 掩码 \(m_g^{wm}\)：取载体上通道权重的中位数并 clip

梯度路由规则：

\[\nabla_{\theta_i^g} \mathcal{L} = \begin{cases} m_g^{wm}(i) \nabla_{\theta_i^g} \mathcal{L}_{wm}, & i \in \mathcal{WM}_\star \\ m_g^{vis}(i) \nabla_{\theta_i^g} \mathcal{L}_{vis}, & i \in \mathcal{VIS} \end{cases}\]

通过两遍前向/反向传播确保 \(\mathcal{WM}_\star\) 和 \(\mathcal{VIS}\) 以正交方式接收梯度，彻底消除优化干扰。

3.5 解耦水印微调¶

视觉目标（仅作用于 VIS）：

\[\mathcal{L}_{vis} = \lambda_{rec}\mathcal{L}_{rec} + \lambda_{lpips}\mathcal{L}_{lpips} + \lambda_{wav}^{high}\mathcal{L}_{wav}^{high}\]

其中 \(\mathcal{L}_{wav}^{high}\) 惩罚多级 DWT 高频子带（LH/HL/HH）。

水印目标（仅作用于 WM_star）：采用 EOT（Expectation Over Transformation）训练策略，在干净和变换后渲染上同时优化：

\[\mathcal{L}_{wm} = \lambda_{wm}^{clean}\mathcal{L}_{wm}^{clean} + \lambda_{wm}^{eot}\mathcal{L}_{wm}^{eot} + \lambda_{wav}^{low}\mathcal{L}_{wav}^{low}\]

水印仅嵌入 DWT 低频（LL）子带，\(\mathcal{L}_{wav}^{low}\) 正则化低频失真。EOT 中的变换族涵盖模糊、旋转、缩放、裁剪、噪声、JPEG 压缩等。

关键设计：VIS 点完全排除在水印 loss 之外。若 VIS 耦合到水印 loss 中，它们会对抗 WM 的更新，既损害视觉质量又破坏提取稳定性。

实验关键数据¶

数据集与设置¶

在 Blender、LLFF、Mip-NeRF 360 三个标准基准的 25 个场景上评估。使用单张 NVIDIA A800 GPU 训练 2-10 个 epoch，解码器为冻结的 HiDDeN（32/48/64 bits）。

渲染质量与比特精度¶

方法	32-bit Acc↑	PSNR↑	SSIM↑	48-bit Acc↑	PSNR↑	64-bit Acc↑	PSNR↑
WateRF+3D-GS	93.28	30.57	0.954	84.39	30.06	74.92	25.73
GuardSplat	95.58	35.32	0.978	93.29	33.36	90.14	32.25
3D-GSW	97.22	35.15	0.977	93.59	33.26	91.31	32.52
Ours	98.46	35.98	0.982	94.29	33.45	91.65	32.71

32-bit 下 PSNR +0.83 dB（vs 3D-GSW），比特精度 +1.24%。随消息长度增加优势更明显。

图像级扰动鲁棒性（32-bit）¶

攻击类型	WateRF	GuardSplat	3D-GSW	Ours
无扰动	93.28	95.58	97.22	98.46
高斯噪声	78.12	90.11	83.71	91.22
旋转	81.47	95.87	88.05	96.18
缩放 75%	84.63	94.93	94.58	95.06
高斯模糊	87.09	97.16	95.94	97.75
裁剪 40%	84.58	95.05	92.73	95.88
JPEG 50%	82.03	89.92	92.54	92.95
组合攻击	64.73	88.64	90.96	91.30

在所有攻击类型下均达到最佳，尤其在高斯噪声和旋转攻击下优势显著。

模型级扰动鲁棒性¶

对 3D-GS 表示进行恶意篡改（参数加噪 σ=0.1、随机移除/克隆 20% 高斯），本方法在所有扰动下均一致领先，说明水印信息并非依赖脆弱子集。

消融实验¶

SBAG、Group Mask、Decoupled Finetuning 三组件缺一不可。全部移除时比特精度降至 94.70%、PSNR 降至 30.00 dB；全部开启时达 97.80%/35.20 dB。自适应预算（vs 固定 1%/10%）在精度和存储间取得最优平衡（98.46%/178MB）。

亮点¶

表示原生设计：决策完全在 3D-GS 参数空间进行，不依赖像素域梯度，确保视角一致性
三层解耦架构：专家评估 → 门控选择 → 梯度路由，每一层都有明确的可解释性
可审计归因：per-Gaussian 归因揭示水印嵌在哪里及为何选中这些载体
自适应预算机制：场景感知的载体数量估计（\(\kappa_{eff}\)），避免过多/过少载体
渲染质量几乎无损：32-bit 下 PSNR 35.98 dB，SSIM 0.982，接近未水印模型

局限与展望¶

超参敏感：频域解耦训练需仔细调节 loss 权重以平衡质量和鲁棒性
解码器依赖：依赖预训练 HiDDeN 解码器，其鲁棒性上界限制了整体系统性能
计算开销未详述：Trio-Experts 的 k-NN 计算和两遍反向传播的额外开销未量化
动态场景：结论中提到可扩展到动态场景，但未提供任何实验验证
对抗性攻击：仅考虑常规图像扰动，未评估针对性对抗攻击的鲁棒性

与相关工作的对比¶

WateRF：NeRF 频域水印迁移到 3D-GS，但缺乏 EOT 对抗训练，在扰动下精度大幅下降（组合攻击仅 64.73%）
GuardSplat：CLIP 引导 + SH 空间嵌入，引入 EOT 但重度依赖 CLIP 解码器，复杂扰动下效果受限
3D-GSW：频域正则化 + 渲染贡献约束，比较全面但缺乏载体-补偿器解耦
本文：唯一在 3D 参数空间做载体选择 + 梯度路由解耦的方法，系统性解决 where/what/why

启发与关联¶

三专家打分 + 不确定度加权融合的思路可迁移到其他 3D-GS 编辑任务（如风格化区域选择）
解耦微调消除梯度冲突的策略对多目标 3D-GS 优化（如同时做几何精修 + 语义编辑）有启发
自适应预算机制（\(\kappa_{eff} = \kappa_0 \cdot \bar{v} \cdot \eta\)）的场景感知设计值得借鉴

评分¶

新颖性: ⭐⭐⭐⭐ — 表示原生三专家系统和梯度解耦路由是新颖设计，where/what/why 框架清晰
实验充分度: ⭐⭐⭐⭐ — 三个数据集、三种消息长度、图像级+模型级攻击、完整消融，但缺动态场景和对抗攻击评估
写作质量: ⭐⭐⭐⭐ — 结构清晰，数学表述严谨，图表丰富
价值: ⭐⭐⭐⭐ — 3D-GS 版权保护的重要工作，可解释性是关键卖点