Sim-to-Real: An Unsupervised Noise Layer for Screen-Camera Watermarking Robustness¶

会议: AAAI 2026
arXiv: 2504.18906
代码: GitHub
领域: AI安全/数字水印
关键词: 屏幕-相机水印, 噪声近似, 无监督学习, 域迁移, GAN, 鲁棒水印

一句话总结¶

提出 Simulation-to-Real (S2R) 框架，首创"数学建模 → 无监督域迁移"两阶段噪声近似策略：先用数学模型将清晰图像变换到已知噪声域 \(\mathcal{C}\)，再用无监督 Image-to-Image 网络 \(G\) 将 \(\mathcal{C}\) 映射到真实屏幕-相机噪声域 \(\mathcal{U}\)，无需配对数据即可精确逼近真实 SC 噪声，在多设备、多角度、多距离条件下均取得最优水印鲁棒性（BER 降低 30-60%）和图像质量（PSNR 42.27 dB / SSIM 0.962）。

研究背景与动机¶

领域现状：屏幕翻拍（Screen-Camera, SC）是主要的非法内容获取手段之一，鲁棒水印技术是事后版权追溯的核心工具。现有 SC 水印方法的关键在于训练阶段的噪声层设计——用噪声层模拟 SC 过程中的退化，让水印网络通过对抗训练学会抵抗这些噪声。
核心痛点：现有噪声近似策略存在两大路线，均有根本缺陷：
数学建模（StegaStamp、PIMoG、SSDS）：将 SC 噪声分解为透视变换、模糊、光照、摩尔纹、高斯噪声等独立分量线性叠加。问题是假设各噪声分量独立，忽略了真实场景中的耦合关系；且难以建模细粒度、局部化的失真。
监督神经网络拟合（CDTF）：用配对数据训练网络直接学习清晰图像到 SC 图像的映射。问题是获取高质量配对数据极其困难（需手动矫正对齐，容易引入空间错位）；且网络容量有限，难以覆盖 SC 噪声的全部多样性。
核心矛盾：数学建模有先验可控但近似偏差大；神经网络拟合精度高但依赖配对数据且泛化差。两者都无法从根本上实现对真实 SC 噪声的有效逼近。
切入角度：与其直接学习 \(\mathcal{S} \to \mathcal{U}\)（清晰→真实噪声）这个极其困难的映射，不如将其分解为 \(\mathcal{S} \xrightarrow{T} \mathcal{C} \xrightarrow{G} \mathcal{U}\)——先用已有数学模型得到"粗略噪声"，再用无监督方法弥合剩余的分布差异。学习噪声域之间的差异远比从零开始学习噪声映射简单得多。

方法详解¶

整体框架¶

S2R 的核心公式为 \(F_{\mathcal{U}}(\cdot) = T * G\)，即噪声近似函数由两部分复合：

数学建模变换 \(T\)：将清晰图像 \(x^s\) 变换为已知噪声域图像 \(y^c = T(x^s)\)，论文默认采用 PIMoG 的噪声模型（透视变换 + 光照变化 + 摩尔纹 + 高斯噪声）
无监督域迁移网络 \(G\)：将 \(y^c\) 映射到真实 SC 噪声域 \(y^u = G(y^c)\)，输出最终的噪声近似图像

训练阶段：给定清晰图像集 \(\mathcal{S}\) 和未配对的真实 SC 图像集 \(\mathcal{U}\)，先通过 \(T\) 生成模拟噪声图像 \(y^c\)，再训练 \(G\) 使 \(y^c\) 的分布逼近 \(\mathcal{U}\) 的分布。验证阶段：固定 \(G\) 权重，清晰图像依次经过 \(T\) 和 \(G\) 得到噪声近似图像。

关键设计¶

无监督噪声域迁移（核心创新）
- 功能：用非配对数据学习已知噪声域 \(\mathcal{C}\) 到未知噪声域 \(\mathcal{U}\) 的映射
- 核心思路：不需要 \(y^c\) 和 \(y^u\) 的配对关系（一一对应），只需两组图像分别来自两个分布。\(G\) 学习的是分布层面的变换而非图像级别的对应
- 设计动机：收集真实 SC 图像很容易（任意拍屏幕即可），但让它们与清晰原图精确配对极其困难。无监督方法完全绕开了配对数据的瓶颈
- 理论支撑：作者用噪声分解公式证明 \(y^u = k^{(c \to u)} \cdot y^c + n^{(c \to u)}\)（当 \(n^s = 0\)），即真实噪声图像可以表示为已知噪声图像的乘性和加性变换。这将问题从学习完整的 \(\mathcal{S} \to \mathcal{U}\) 映射简化为学习残差偏差 \(k_\delta\) 和 \(n_\delta\)
Image-to-Image 网络架构
- 功能：采用改进版 MIMO-UNet 作为生成器 \(G\)
- 核心思路：多输入单编码器（MISE）+ 非对称特征融合（AFF）实现多尺度特征提取和融合。编码器接收不同尺度的降采样噪声图像和高斯噪声图作为输入，解码器输出多尺度的去模糊/噪声变换图像
- 设计动机：多尺度处理能同时捕获全局噪声特征（光照变化、色偏）和局部细粒度噪声（摩尔纹、像素级失真）；注入随机高斯噪声 \(z\) 可缓解模式坍缩，生成多样化的噪声图像
模块化可替换设计
- 功能：数学建模模块 \(T\) 和域迁移网络 \(G\) 解耦，可独立替换
- 实验验证：将 StegaStamp、SSDS 的噪声模型替换 PIMoG 作为 \(T\)，S2R 框架均能正常工作并提升性能
- 设计动机：不同应用场景可能面对不同的 SC 噪声特性，灵活替换 \(T\) 可适配各类需求。同时也支持将 CycleGAN、DualGAN 等替换 \(G\)

损失函数与训练策略¶

生成器损失：\(L_G = L_{\text{cGAN}}(G, D) + \lambda_G L_P(G)\)

对抗损失 \(L_{\text{cGAN}}\)：标准 GAN 损失，判别器 \(D\) 区分真实 SC 图像与生成图像，\(G\) 欺骗 \(D\)
多尺度感知损失 \(L_P\)：在 VGG 等预训练网络的特征空间中计算重建误差，权重随尺度递减 \(\frac{1}{2^{k-1}}\)，实现从粗到细的内容重建。避免像素级约束导致过度平滑

判别器损失：\(L_D = -L_{\text{cGAN}}(G, D) + \lambda_{\text{grad}} L_{\text{grad}}^D(D)\)

梯度惩罚 \(L_{\text{grad}}^D\)：对插值样本施加梯度范数约束，强制满足 Lipschitz 连续性，稳定 GAN 训练

超参数设置：\(\lambda_G = 1.0\)，\(\lambda_{\text{grad}} = 0.005\)（参考 Blur2Blur）

训练细节： - 水印框架：MCFN，COCO 数据集选取 10,000 张图像，resize 至 128×128，嵌入 64-bit 随机水印 - S2R 训练数据：3 组设备对各拍摄 900 张 SC 图像（Samsung+Lenovo / iPhone+Envision / MEIZU+ASUS），合并为 SIM+LEA 数据集 - 硬件：NVIDIA RTX 4090 GPU，batch size = 8

实验关键数据¶

不同噪声层在相同水印框架下的性能对比（距离30cm）¶

方法	PSNR (dB)	SSIM	BER 0°	BER 20°	BER 40°
StegaStamp	39.89	0.948	5.5%	7.1%	7.3%
PIMoG	41.41	0.950	6.2%	8.8%	9.5%
SSDS	41.05	0.956	5.1%	6.0%	7.6%
S2R	42.27	0.962	2.1%	3.3%	6.0%

S2R 在图像质量和水印鲁棒性上全面领先：PSNR 提升 1-2.4 dB，0° BER 较 SSDS 降低 59%。

不同拍摄距离和角度下的 BER 对比（%）¶

方法	20cm	25cm	30cm	35cm	40cm	左-60°	左-40°	左-20°	右20°	右40°	右60°
StegaStamp	2.9	3.9	4.6	4.7	4.4	5.9	7.2	4.1	5.8	7.7	7.6
PIMoG	1.5	1.4	3.3	3.2	2.6	9.0	8.7	5.2	5.3	9.3	9.7
SSDS	2.4	2.7	2.1	2.7	4.1	7.5	5.1	3.9	4.2	6.1	6.2
S2R	1.2	1.1	2.1	2.5	2.2	5.8	3.9	3.2	3.3	6.0	5.9

S2R 在近距离（20-25cm）优势尤为明显，BER 仅 1.1-1.2%。大角度下仍保持领先。

可扩展性与消融实验¶

变体	PSNR (dB)	SSIM	BER 0°	BER 20°	BER 40°
StegaStamp-based(SIM+LEA)	40.47	0.952	2.4%	3.7%	7.1%
SSDS-based(SIM+LEA)	41.25	0.967	5.0%	8.1%	10.6%
S2R-supervised(I+E)	41.29	0.959	3.8%	5.5%	7.9%
S2R-CycleGAN(SIM+LEA)	41.85	0.960	2.9%	4.5%	6.9%
S2R-DualGAN(SIM+LEA)	41.55	0.958	3.5%	5.2%	7.6%
S2R(I+E)	42.57	0.964	1.6%	3.1%	5.1%
S2R(SIM+LEA)	42.27	0.962	2.1%	3.3%	6.0%

关键发现：(1) S2R 框架可即插即用替换不同数学模型 \(T\)，均优于原始方法；(2) 无监督 S2R 显著优于监督变体，验证无配对数据策略的有效性；(3) S2R 的 Image-to-Image 网络优于 CycleGAN 和 DualGAN。

极端条件下的鲁棒性（局限性分析）¶

拍摄条件	BER (%)
标准（0°, 30cm）	1.6
极端角度 +80°	30.0
极端角度 -80°	26.0
远距离 100cm	3.6
局部光斑	2.5
暗屏	30.0
部分裁剪（保留中心75%）	50.0

亮点与洞察¶

问题分解思想精妙：将"清晰→真实噪声"这个几乎不可解的直接映射分解为"清晰→模拟噪声→真实噪声"两步走，本质是利用数学建模提供的先验将搜索空间从"整个噪声空间"缩小到"残差噪声空间"，大幅降低学习难度。这种 sim-to-real 思想在机器人和自动驾驶领域常见，但在水印领域是首创。
理论可行性证明严谨：通过噪声分解公式 \(y^u = k_\delta \cdot y^c + n_\delta\) 理论上证明了域间迁移的可行性——当输入图像无噪声时，真实噪声图像可完全表示为模拟噪声图像的映射。这不仅是经验有效，还有理论基础。
无监督方案的实际价值：在水印领域，获取配对 SC 数据的成本极高（需精确对齐）。S2R 只需"随便拍几百张屏幕照片"就能训练噪声模型，极大降低了实际部署门槛。跨设备泛化实验（Table 1）进一步证明在不同设备上的通用性。
噪声保真度与水印性能的定量关联：作者通过不同训练 epoch 的中间模型实验（Table 8）证明了噪声近似越真实 → 水印 BER 越低，建立了噪声逼真度与下游水印性能的因果链。

局限性¶

极端条件脆弱：在 ±80° 极端视角和暗屏条件下 BER 高达 26-30%，部分裁剪场景更达 50%。这些极端退化类型在训练数据中未充分覆盖，属于域外失效。
训练非端到端：S2R 的噪声模型 \(G\) 和水印网络是分别训练的。虽然跨源训练实验证明性能下降有限，但端到端联合优化可能进一步提升上界。作者在结论中也提到了这一未来方向。
固定分辨率训练：默认训练分辨率为 128×128，虽然通过分辨率缩放策略（参考 TrustMark）可以推理时处理任意分辨率，但这是后处理方案而非原生支持。
数学建模模块依赖：虽然 \(T\) 可替换，但系统仍依赖于一个合理的初始数学模型作为出发点。如果 \(T\) 的噪声模拟与真实噪声差距过大，无监督 \(G\) 的弥合能力可能不足。
评估场景有限：主要在 3 组设备对上测试，未涉及打印-相机场景、视频水印、不同屏幕刷新率对水印的影响等更广泛的应用场景。

评分¶

维度	分数 (1-10)	说明
新颖性	8	首创 sim-to-real 范式用于 SC 水印噪声近似，结合数学建模+无监督学习的思路新颖
技术深度	7	理论推导完整（噪声分解+可行性证明），但核心技术（GAN + 感知损失）相对标准
实验充分度	9	多设备、多角度、多距离、跨数据集、跨训练源、可扩展性，消融全面
写作质量	8	结构清晰，动机阐述充分，图表丰富，Problem → Insight → Solution 逻辑链完整
实用价值	8	无需配对数据，随拍即训，模块解耦可替换，实际部署门槛低
总评	8.0	一个设计精巧的工程化方案，将 sim-to-real 迁移思想成功移植到水印噪声建模领域，实验全面有说服力