Protecting NeRFs' Copyright via Plug-And-Play Watermarking Base Model¶

会议: ECCV 2024
arXiv: 2407.07735
代码: https://qsong2001.github.io/NeRFProtector
领域: 3D视觉
关键词: NeRF版权保护, 数字水印, 即插即用, 渐进式全局渲染, 知识蒸馏

一句话总结¶

提出 NeRFProtector，利用预训练的水印基础模型（message extractor）以即插即用方式在 NeRF 创建过程中同步嵌入二进制水印，通过渐进式全局渲染（PGR）将水印知识蒸馏到 NeRF 表示中，无需修改 NeRF 架构即可实现高比特精度的版权保护。

研究背景与动机¶

领域现状：NeRF 已成为 3D 场景表示的关键技术，随着其影响力扩大，保护 NeRF 模型的知识产权变得日益重要。现有方法如 CopyRNeRF 通过在 NeRF 模型中嵌入二进制水印来保护版权。

现有痛点：CopyRNeRF 存在两个显著缺陷：一是水印嵌入发生在 NeRF 创建完成之后的模型微调阶段，创建与嵌入之间存在时间窗口，恶意用户可能在此期间获取未保护的模型；二是 NeRF 创建者需要在嵌入水印时联合训练消息提取器，整个过程极其耗时复杂（约30小时），可能导致创作者放弃使用水印保护。

核心矛盾：版权保护的实用性与易用性之间的矛盾——现有方法要么保护不及时（创建后才嵌入），要么使用门槛过高（需修改 NeRF 架构、联合训练额外模块），导致创作者不愿采用。

本文目标 (1) 如何在 NeRF 创建过程中同步完成水印嵌入，消除保护时间窗口；(2) 如何让水印方案兼容多种 NeRF 变体而无需架构修改；(3) 如何在保持渲染质量的同时实现高比特精度的水印提取。

切入角度：作者观察到传统 2D 图像水印框架（如 HiDDeN）中已有训练好的消息提取器，这些提取器已经学会了水印模式的知识。如果能将这些知识"蒸馏"到 NeRF 中，就无需修改 NeRF 本身的架构。

核心 idea：利用预训练的 2D 水印提取器作为即插即用的基础模型，通过渐进式全局渲染将水印知识蒸馏到 NeRF 表示中，实现创建与保护的同步完成。

方法详解¶

整体框架¶

NeRFProtector 包含三个阶段：(1) 构建水印基础模型——从 HiDDeN 框架获取预训练的消息提取器 \(\mathcal{F}\)；(2) 在 NeRF 创建过程中，固定基础模型权重，通过渐进式全局渲染（PGR）将水印知识蒸馏到 NeRF 表示中；(3) 创建完成后，使用同一基础模型从渲染图像中提取二进制水印进行版权声明。输入为 3D 场景多视角图像和待嵌入的二进制消息，输出为带水印的 NeRF 模型。

关键设计¶

水印基础模型（Watermarking Base Model）:
- 功能：提供即插即用的水印嵌入和提取能力
- 核心思路：采用 HiDDeN 框架，联合训练编码器 \(\mathcal{E}\) 和提取器 \(\mathcal{F}\)。编码器将 48-bit 二进制消息嵌入覆盖图像生成水印图像，提取器从（可能经过干扰的）水印图像中恢复消息。训练完成后丢弃编码器，仅保留提取器作为基础模型。训练过程中加入随机变换层 \(T\) 以增强对常见图像失真的鲁棒性
- 设计动机：利用已有成熟的 2D 水印框架避免重新设计，且提取器已经学会了消息模式的知识，便于后续蒸馏到 NeRF 中
渐进式全局渲染（Progressive Global Rendering, PGR）:
- 功能：替代 NeRF 的随机局部渲染，实现全局水印嵌入
- 核心思路：标准 NeRF 训练时每次只随机渲染一小部分像素（局部渲染），导致水印模式只能嵌入到随机位置，无法形成有效的全局模式。PGR 在多个分辨率尺度上渲染所有像素，生成 \(N_k=3\) 层级联视图 \(\hat{I}_{set}\)，其中每层分辨率为 \(\frac{W}{2^n} \times \frac{H}{2^n}\)。由于使用降低分辨率的全局渲染，计算成本可控
- 设计动机：全局渲染确保消息模式深度整合到场景表示中，多尺度渲染利用了 3D 信息在不同 2D 投影分辨率下的不同特性，有助于消息蒸馏
消息蒸馏（Message Distillation）:
- 功能：将基础模型中的水印知识转移到 NeRF 表示中
- 核心思路：对 PGR 生成的多尺度渲染图像，用基础模型提取消息 \(\hat{m}_{set} = \mathcal{F}(\hat{I}_{set})\)，通过最小化提取消息与目标消息之间的 BCE 损失进行蒸馏：\(\mathcal{L}_{dis} = \sum_{i=1}^{N_k} \alpha_i \cdot BCE(m, \hat{m}_i)\)。同时用不可见性损失 \(\mathcal{L}_{inv}\) 约束渲染质量
- 设计动机：不修改 NeRF 的基本表示结构，仅通过渲染方案的改变实现知识转移，保持了即插即用的特性

损失函数 / 训练策略¶

总损失为三部分加权和：\(\mathcal{L} = \lambda_1 \mathcal{L}_{local} + \lambda_2 \mathcal{L}_{inv} + \lambda_3 \mathcal{L}_{dis}\)，其中 \(\lambda_1=0.01\)，\(\lambda_3=0.001\)。\(\mathcal{L}_{local}\) 为标准 NeRF 重建损失，\(\mathcal{L}_{inv}\) 为最高分辨率渲染与真实值的 MSE 损失，\(\mathcal{L}_{dis}\) 为多尺度蒸馏损失。基础模型权重固定不更新。

实验关键数据¶

主实验¶

数据集	方法	PSNR↑	SSIM↑	LPIPS↓	Bit Acc.(None)	Bit Acc.(Crop)	Bit Acc.(Resize)	Bit Acc.(JPEG)
Blender	NeRF w/o wm	30.62	0.9579	0.0343	N/A	N/A	N/A	N/A
Blender	CopyRNeRF	25.50	0.9073	0.0885	62.15%	56.63%	57.32%	58.41%
Blender	NeRFProtector	29.26	0.9393	0.0483	92.69%	92.95%	91.87%	78.62%
LLFF	NeRF w/o wm	26.37	0.8352	0.1013	N/A	N/A	N/A	N/A
LLFF	CopyRNeRF	25.80	0.8302	0.1035	63.72%	60.45%	55.34%	54.11%
LLFF	NeRFProtector	26.82	0.8569	0.0834	96.99%	93.57%	80.53%	76.26%

消融实验¶

渲染策略	PSNR↑	SSIM↑	LPIPS↓	Bit Accuracy
Local rendering only	30.38	0.9521	0.0360	45.99%
Single-scale global	29.57	0.9402	0.0449	87.27%
Progressive (完整)	29.26	0.9394	0.0483	92.69%

NeRF变体 + 基础模型	PSNR↑	Bit Accuracy
Instant-NGP + HiDDeN	32.92	91.96%
TensorRF + HiDDeN	32.73	89.35%
Plenoxels + HiDDeN	34.19	97.92%
Instant-NGP + MBRS	31.71	89.13%

关键发现¶

PGR 是最关键的设计：从局部渲染的 45.99% 跳升到渐进式全局渲染的 92.69% 比特精度
方法兼容多种 NeRF 变体（Instant-NGP、TensorRF、Plenoxels）和多种基础模型（HiDDeN、MBRS），验证了即插即用特性
训练时间仅约 50 分钟，而 CopyRNeRF 需要约 30 小时，效率提升 36 倍
在常见图像失真（裁剪、缩放）下比特精度保持在 80%+ 以上

亮点与洞察¶

即插即用设计理念：将水印能力封装为独立的基础模型，与 NeRF 架构解耦，这种模块化思路可迁移到其他 3D 表示（如 3D Gaussian Splatting）的版权保护中
渲染策略与水印嵌入的关联发现：揭示了 NeRF 的随机局部渲染无法有效嵌入全局水印模式，这一观察具有启发性——任何依赖全局模式的任务都可能受益于全局渲染策略
通过知识蒸馏实现跨维度迁移：将 2D 水印提取知识迁移到 3D 场景表示中，无需设计专门的 3D 水印方案，体现了降维解决问题的思路

局限与展望¶

白盒攻击威胁：如果攻击者获取了基础模型，可通过 PGD 攻击以极小失真移除水印，基础模型的保密性是安全前提
如果攻击者获取了原始训练图像，可通过无水印损失微调去除水印
仅在 48-bit 消息长度上验证，更长消息的嵌入能力未探索
未考虑 3D Gaussian Splatting 等更新的 3D 表示方法
版权保护需要超越技术方案的综合策略，包括法律框架支持

评分¶

新颖性: ⭐⭐⭐⭐ 即插即用的水印基础模型思路新颖，但核心组件（HiDDeN、蒸馏）已有
实验充分度: ⭐⭐⭐⭐ 消融实验、跨变体验证、攻击分析全面，但仅使用两个数据集
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细，图表设计合理
价值: ⭐⭐⭐⭐ 解决了 NeRF 版权保护的实用性问题，但适用场景较窄