Sim-to-Real: An Unsupervised Noise Layer for Screen-Camera Watermarking Robustness¶
会议: AAAI 2026
arXiv: 2504.18906
代码: GitHub
领域: AI安全/数字水印
关键词: 屏幕-相机水印, 噪声近似, 无监督学习, 域迁移, GAN, 鲁棒水印
一句话总结¶
提出 Simulation-to-Real (S2R) 框架,首创"数学建模 → 无监督域迁移"两阶段噪声近似策略:先用数学模型将清晰图像变换到已知噪声域 \(\mathcal{C}\),再用无监督 Image-to-Image 网络 \(G\) 将 \(\mathcal{C}\) 映射到真实屏幕-相机噪声域 \(\mathcal{U}\),无需配对数据即可精确逼近真实 SC 噪声,在多设备、多角度、多距离条件下均取得最优水印鲁棒性(BER 降低 30-60%)和图像质量(PSNR 42.27 dB / SSIM 0.962)。
研究背景与动机¶
- 领域现状:屏幕翻拍(Screen-Camera, SC)是主要的非法内容获取手段之一,鲁棒水印技术是事后版权追溯的核心工具。现有 SC 水印方法的关键在于训练阶段的噪声层设计——用噪声层模拟 SC 过程中的退化,让水印网络通过对抗训练学会抵抗这些噪声。
- 核心痛点:现有噪声近似策略存在两大路线,均有根本缺陷:
- 数学建模(StegaStamp、PIMoG、SSDS):将 SC 噪声分解为透视变换、模糊、光照、摩尔纹、高斯噪声等独立分量线性叠加。问题是假设各噪声分量独立,忽略了真实场景中的耦合关系;且难以建模细粒度、局部化的失真。
- 监督神经网络拟合(CDTF):用配对数据训练网络直接学习清晰图像到 SC 图像的映射。问题是获取高质量配对数据极其困难(需手动矫正对齐,容易引入空间错位);且网络容量有限,难以覆盖 SC 噪声的全部多样性。
- 核心矛盾:数学建模有先验可控但近似偏差大;神经网络拟合精度高但依赖配对数据且泛化差。两者都无法从根本上实现对真实 SC 噪声的有效逼近。
- 切入角度:与其直接学习 \(\mathcal{S} \to \mathcal{U}\)(清晰→真实噪声)这个极其困难的映射,不如将其分解为 \(\mathcal{S} \xrightarrow{T} \mathcal{C} \xrightarrow{G} \mathcal{U}\)——先用已有数学模型得到"粗略噪声",再用无监督方法弥合剩余的分布差异。学习噪声域之间的差异远比从零开始学习噪声映射简单得多。
方法详解¶
整体框架¶
S2R 的核心公式为 \(F_{\mathcal{U}}(\cdot) = T * G\),即噪声近似函数由两部分复合:
- 数学建模变换 \(T\):将清晰图像 \(x^s\) 变换为已知噪声域图像 \(y^c = T(x^s)\),论文默认采用 PIMoG 的噪声模型(透视变换 + 光照变化 + 摩尔纹 + 高斯噪声)
- 无监督域迁移网络 \(G\):将 \(y^c\) 映射到真实 SC 噪声域 \(y^u = G(y^c)\),输出最终的噪声近似图像
训练阶段:给定清晰图像集 \(\mathcal{S}\) 和未配对的真实 SC 图像集 \(\mathcal{U}\),先通过 \(T\) 生成模拟噪声图像 \(y^c\),再训练 \(G\) 使 \(y^c\) 的分布逼近 \(\mathcal{U}\) 的分布。验证阶段:固定 \(G\) 权重,清晰图像依次经过 \(T\) 和 \(G\) 得到噪声近似图像。
关键设计¶
-
无监督噪声域迁移(核心创新)
- 功能:用非配对数据学习已知噪声域 \(\mathcal{C}\) 到未知噪声域 \(\mathcal{U}\) 的映射
- 核心思路:不需要 \(y^c\) 和 \(y^u\) 的配对关系(一一对应),只需两组图像分别来自两个分布。\(G\) 学习的是分布层面的变换而非图像级别的对应
- 设计动机:收集真实 SC 图像很容易(任意拍屏幕即可),但让它们与清晰原图精确配对极其困难。无监督方法完全绕开了配对数据的瓶颈
- 理论支撑:作者用噪声分解公式证明 \(y^u = k^{(c \to u)} \cdot y^c + n^{(c \to u)}\)(当 \(n^s = 0\)),即真实噪声图像可以表示为已知噪声图像的乘性和加性变换。这将问题从学习完整的 \(\mathcal{S} \to \mathcal{U}\) 映射简化为学习残差偏差 \(k_\delta\) 和 \(n_\delta\)
-
Image-to-Image 网络架构
- 功能:采用改进版 MIMO-UNet 作为生成器 \(G\)
- 核心思路:多输入单编码器(MISE)+ 非对称特征融合(AFF)实现多尺度特征提取和融合。编码器接收不同尺度的降采样噪声图像和高斯噪声图作为输入,解码器输出多尺度的去模糊/噪声变换图像
- 设计动机:多尺度处理能同时捕获全局噪声特征(光照变化、色偏)和局部细粒度噪声(摩尔纹、像素级失真);注入随机高斯噪声 \(z\) 可缓解模式坍缩,生成多样化的噪声图像
-
模块化可替换设计
- 功能:数学建模模块 \(T\) 和域迁移网络 \(G\) 解耦,可独立替换
- 实验验证:将 StegaStamp、SSDS 的噪声模型替换 PIMoG 作为 \(T\),S2R 框架均能正常工作并提升性能
- 设计动机:不同应用场景可能面对不同的 SC 噪声特性,灵活替换 \(T\) 可适配各类需求。同时也支持将 CycleGAN、DualGAN 等替换 \(G\)
损失函数与训练策略¶
生成器损失:\(L_G = L_{\text{cGAN}}(G, D) + \lambda_G L_P(G)\)
- 对抗损失 \(L_{\text{cGAN}}\):标准 GAN 损失,判别器 \(D\) 区分真实 SC 图像与生成图像,\(G\) 欺骗 \(D\)
- 多尺度感知损失 \(L_P\):在 VGG 等预训练网络的特征空间中计算重建误差,权重随尺度递减 \(\frac{1}{2^{k-1}}\),实现从粗到细的内容重建。避免像素级约束导致过度平滑
判别器损失:\(L_D = -L_{\text{cGAN}}(G, D) + \lambda_{\text{grad}} L_{\text{grad}}^D(D)\)
- 梯度惩罚 \(L_{\text{grad}}^D\):对插值样本施加梯度范数约束,强制满足 Lipschitz 连续性,稳定 GAN 训练
超参数设置:\(\lambda_G = 1.0\),\(\lambda_{\text{grad}} = 0.005\)(参考 Blur2Blur)
训练细节: - 水印框架:MCFN,COCO 数据集选取 10,000 张图像,resize 至 128×128,嵌入 64-bit 随机水印 - S2R 训练数据:3 组设备对各拍摄 900 张 SC 图像(Samsung+Lenovo / iPhone+Envision / MEIZU+ASUS),合并为 SIM+LEA 数据集 - 硬件:NVIDIA RTX 4090 GPU,batch size = 8
实验关键数据¶
不同噪声层在相同水印框架下的性能对比(距离30cm)¶
| 方法 | PSNR (dB) | SSIM | BER 0° | BER 20° | BER 40° |
|---|---|---|---|---|---|
| StegaStamp | 39.89 | 0.948 | 5.5% | 7.1% | 7.3% |
| PIMoG | 41.41 | 0.950 | 6.2% | 8.8% | 9.5% |
| SSDS | 41.05 | 0.956 | 5.1% | 6.0% | 7.6% |
| S2R | 42.27 | 0.962 | 2.1% | 3.3% | 6.0% |
S2R 在图像质量和水印鲁棒性上全面领先:PSNR 提升 1-2.4 dB,0° BER 较 SSDS 降低 59%。
不同拍摄距离和角度下的 BER 对比(%)¶
| 方法 | 20cm | 25cm | 30cm | 35cm | 40cm | 左-60° | 左-40° | 左-20° | 右20° | 右40° | 右60° |
|---|---|---|---|---|---|---|---|---|---|---|---|
| StegaStamp | 2.9 | 3.9 | 4.6 | 4.7 | 4.4 | 5.9 | 7.2 | 4.1 | 5.8 | 7.7 | 7.6 |
| PIMoG | 1.5 | 1.4 | 3.3 | 3.2 | 2.6 | 9.0 | 8.7 | 5.2 | 5.3 | 9.3 | 9.7 |
| SSDS | 2.4 | 2.7 | 2.1 | 2.7 | 4.1 | 7.5 | 5.1 | 3.9 | 4.2 | 6.1 | 6.2 |
| S2R | 1.2 | 1.1 | 2.1 | 2.5 | 2.2 | 5.8 | 3.9 | 3.2 | 3.3 | 6.0 | 5.9 |
S2R 在近距离(20-25cm)优势尤为明显,BER 仅 1.1-1.2%。大角度下仍保持领先。
可扩展性与消融实验¶
| 变体 | PSNR (dB) | SSIM | BER 0° | BER 20° | BER 40° |
|---|---|---|---|---|---|
| StegaStamp-based(SIM+LEA) | 40.47 | 0.952 | 2.4% | 3.7% | 7.1% |
| SSDS-based(SIM+LEA) | 41.25 | 0.967 | 5.0% | 8.1% | 10.6% |
| S2R-supervised(I+E) | 41.29 | 0.959 | 3.8% | 5.5% | 7.9% |
| S2R-CycleGAN(SIM+LEA) | 41.85 | 0.960 | 2.9% | 4.5% | 6.9% |
| S2R-DualGAN(SIM+LEA) | 41.55 | 0.958 | 3.5% | 5.2% | 7.6% |
| S2R(I+E) | 42.57 | 0.964 | 1.6% | 3.1% | 5.1% |
| S2R(SIM+LEA) | 42.27 | 0.962 | 2.1% | 3.3% | 6.0% |
关键发现:(1) S2R 框架可即插即用替换不同数学模型 \(T\),均优于原始方法;(2) 无监督 S2R 显著优于监督变体,验证无配对数据策略的有效性;(3) S2R 的 Image-to-Image 网络优于 CycleGAN 和 DualGAN。
极端条件下的鲁棒性(局限性分析)¶
| 拍摄条件 | BER (%) |
|---|---|
| 标准(0°, 30cm) | 1.6 |
| 极端角度 +80° | 30.0 |
| 极端角度 -80° | 26.0 |
| 远距离 100cm | 3.6 |
| 局部光斑 | 2.5 |
| 暗屏 | 30.0 |
| 部分裁剪(保留中心75%) | 50.0 |
亮点与洞察¶
-
问题分解思想精妙:将"清晰→真实噪声"这个几乎不可解的直接映射分解为"清晰→模拟噪声→真实噪声"两步走,本质是利用数学建模提供的先验将搜索空间从"整个噪声空间"缩小到"残差噪声空间",大幅降低学习难度。这种 sim-to-real 思想在机器人和自动驾驶领域常见,但在水印领域是首创。
-
理论可行性证明严谨:通过噪声分解公式 \(y^u = k_\delta \cdot y^c + n_\delta\) 理论上证明了域间迁移的可行性——当输入图像无噪声时,真实噪声图像可完全表示为模拟噪声图像的映射。这不仅是经验有效,还有理论基础。
-
无监督方案的实际价值:在水印领域,获取配对 SC 数据的成本极高(需精确对齐)。S2R 只需"随便拍几百张屏幕照片"就能训练噪声模型,极大降低了实际部署门槛。跨设备泛化实验(Table 1)进一步证明在不同设备上的通用性。
-
噪声保真度与水印性能的定量关联:作者通过不同训练 epoch 的中间模型实验(Table 8)证明了噪声近似越真实 → 水印 BER 越低,建立了噪声逼真度与下游水印性能的因果链。
局限性¶
- 极端条件脆弱:在 ±80° 极端视角和暗屏条件下 BER 高达 26-30%,部分裁剪场景更达 50%。这些极端退化类型在训练数据中未充分覆盖,属于域外失效。
- 训练非端到端:S2R 的噪声模型 \(G\) 和水印网络是分别训练的。虽然跨源训练实验证明性能下降有限,但端到端联合优化可能进一步提升上界。作者在结论中也提到了这一未来方向。
- 固定分辨率训练:默认训练分辨率为 128×128,虽然通过分辨率缩放策略(参考 TrustMark)可以推理时处理任意分辨率,但这是后处理方案而非原生支持。
- 数学建模模块依赖:虽然 \(T\) 可替换,但系统仍依赖于一个合理的初始数学模型作为出发点。如果 \(T\) 的噪声模拟与真实噪声差距过大,无监督 \(G\) 的弥合能力可能不足。
- 评估场景有限:主要在 3 组设备对上测试,未涉及打印-相机场景、视频水印、不同屏幕刷新率对水印的影响等更广泛的应用场景。
相关工作¶
- 数学建模类 SC 水印:StegaStamp(可微物理退化流水线)、PIMoG(透视+光照+摩尔纹+高斯)、SSDS(额外引入灰度偏差)——均将噪声分量独立叠加,忽略耦合关系
- 监督拟合类 SC 水印:CDTF(Wengrowski et al.)——用 1.9TB 真实数据集训练监督噪声拟合网络,数据获取成本极高,泛化受限
- 水印框架:HiDDeN、MBRS、Adaptor、MCFN 等端到端水印编解码框架,S2R 使用 MCFN 作为默认水印骨架
- 无监督图像翻译:CycleGAN、DualGAN(循环一致性损失实现非配对翻译)、Pix2Pix(监督翻译,被扩展到无监督设置如 Blur2Blur)
- Sim-to-Real 迁移:机器人/自动驾驶领域的经典范式,S2R 将其引入水印噪声建模领域
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 新颖性 | 8 | 首创 sim-to-real 范式用于 SC 水印噪声近似,结合数学建模+无监督学习的思路新颖 |
| 技术深度 | 7 | 理论推导完整(噪声分解+可行性证明),但核心技术(GAN + 感知损失)相对标准 |
| 实验充分度 | 9 | 多设备、多角度、多距离、跨数据集、跨训练源、可扩展性,消融全面 |
| 写作质量 | 8 | 结构清晰,动机阐述充分,图表丰富,Problem → Insight → Solution 逻辑链完整 |
| 实用价值 | 8 | 无需配对数据,随拍即训,模块解耦可替换,实际部署门槛低 |
| 总评 | 8.0 | 一个设计精巧的工程化方案,将 sim-to-real 迁移思想成功移植到水印噪声建模领域,实验全面有说服力 |
相关论文¶
- [AAAI 2026] Towards Multiple Missing Values-Resistant Unsupervised Graph Anomaly Detection
- [AAAI 2026] Robust Watermarking on Gradient Boosting Decision Trees
- [AAAI 2026] Yours or Mine? Overwriting Attacks Against Neural Audio Watermarking
- [AAAI 2026] RegionMarker: A Region-Triggered Semantic Watermarking Framework for Embedding-as-a-Service
- [AAAI 2026] Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification