Traceable Black-box Watermarks for Federated Learning¶

会议: ICLR 2026
arXiv: 2505.13651
代码: GitHub
领域: AI安全
关键词: 联邦学习, 黑盒水印, 可追踪性, 模型泄露检测, 掩码聚合

一句话总结¶

提出 TraMark，通过将模型参数空间划分为主任务区域和水印区域、采用掩码聚合防止水印碰撞，首次在联邦学习中实现服务器端可追踪黑盒水印注入，验证率达 99.58% 且主任务精度仅下降 0.54%。

背景与动机¶

联邦学习面临模型泄露风险：FL 系统中每个客户端都能访问全局模型，恶意客户端可能复制并非法分发模型，威胁所有参与者的集体利益。保护 FL 训练模型的知识产权已成为关键挑战。
现有水印方法存在局限：参数级水印（如 FedTracker）需要白盒访问模型参数进行验证，在实际部署中（如 API 访问）不可行；后门级水印虽支持黑盒验证，但现有方法要么不支持追踪，要么需要修改本地训练协议并访问客户端数据。
可追踪性与水印碰撞的矛盾：要实现追踪需要为每个客户端注入不同的水印，但 FedAvg 聚合时会融合所有客户端的参数，导致水印混淆（watermark collision），破坏可追踪性。这是追踪性与联邦聚合之间的核心矛盾。
缺乏形式化定义：尽管已有经验性进展，文献中仍缺少对 FL 中可追踪黑盒水印问题的形式化定义和数学建模，阻碍了系统性解决方案的发展。

方法详解¶

整体框架：TraMark¶

功能：在服务器端为每个客户端创建个性化的可追踪水印模型，使验证者能在黑盒设置下检测模型泄露并定位泄露源。
为什么：将水印注入完全放在服务器端执行，避免恶意客户端篡改水印流程；通过参数空间划分和掩码聚合解决水印碰撞问题。
怎么做：三个核心组件——(1) 约束水印区域：将模型参数划分为主任务区域和水印区域；(2) 掩码聚合：仅聚合主任务区域，保留各客户端水印区域的独立性；(3) 独立水印注入：在水印区域用独特的水印数据集训练每个客户端模型。

关键设计 1：参数空间划分与约束水印区域¶

现有方法在整个参数空间上进行水印注入，导致两个问题：(a) 水印扰动分散到整个参数空间影响主任务性能；(b) 聚合时不同客户端的水印被融合导致碰撞。TraMark 通过互补二值掩码将参数空间严格分为两个区域：

水印掩码 \(\mathbf{M}_w \in \{0,1\}^d\)：标记用于水印学习的参数，占比 \(k\)（默认 1%）
主任务掩码 \(\mathbf{M}_m \in \{0,1\}^d\)：标记用于主任务学习的参数，占比 \(1-k\)

满足 \(\mathbf{M}_w + \mathbf{M}_m = \mathbf{1}^d\)。水印区域的选择基于参数重要性：经过 \(\alpha \times T\) 轮预热训练后，选择绝对值最小的 \(k \times d\) 个参数作为水印区域，确保水印注入对主任务影响最小。

关键设计 2：掩码聚合与水印注入¶

掩码聚合：区别于 FedAvg 对所有参数统一平均，TraMark 对每个客户端 \(i\) 的个性化全局模型按以下方式聚合：

\[\tilde{\theta}_i = \theta_i + \mathbf{M}_m \odot \frac{1}{n}\sum_{i=1}^{n}\Delta_i + \mathbf{M}_w \odot \Delta_i\]

主任务区域执行标准 FedAvg 聚合（共享知识），水印区域仅保留客户端自身的更新（维持独特水印）。

水印注入：对每个个性化模型 \(\tilde{\theta}_i\) 在对应的独特水印数据集 \(\mathcal{D}_i^w\) 上训练 \(\tau_w\) 轮，且仅更新水印区域的梯度：

\[\tilde{\theta}_i^{s+1} = \tilde{\theta}_i^s - \eta_w g_i^s \odot \mathbf{M}_w\]

通过梯度掩码确保水印知识不会扩散到主任务区域。

关键设计 3：独特水印数据集构造¶

为最大化避免水印碰撞，每个客户端分配的水印数据集在触发器和输出分布上都必须不同：

触发器不重叠：\(\mathcal{X}_i^w \cap \mathcal{X}_j^w = \emptyset\)，使用与主任务分布无关的 OOD 样本（如 MNIST 各类别样本）
预定义输出不同：\(\phi_i(x) \neq \phi_j(x)\)，每个客户端映射到不同标签

验证时，水印模型仅对自己水印数据集的触发器产生预定义输出，对其他客户端的触发器只输出随机猜测，从而实现可靠追踪。

实验¶

实验设置¶

数据集：FMNIST（CNN）、CIFAR-10（AlexNet）、CIFAR-100（VGG-16）、Tiny-ImageNet（ViT）
FL 配置：10 个客户端，本地训练 5 轮，学习率 0.01；IID 和 non-IID（Dirichlet γ=0.5）两种设置
水印配置：MNIST 作为水印源，每类 100 样本，水印学习率 1e-4，\(\tau_w=5\)，\(k=1\%\)，\(\alpha=0.5\)
基线：FedAvg（无水印）、WAFFLE（黑盒不可追踪）、FedTracker（白盒可追踪）
指标：主任务精度（MA）和验证率（VR）

主实验结果¶

数据集	FedAvg MA	WAFFLE MA	FedTracker MA/VR	TraMark MA/VR
FMNIST	92.60	92.21	89.95 / 100.0	91.20 / 96.67
FMNIST (N)	91.52	91.41	67.50 / 100.0	91.31 / 100.0
CIFAR-10	89.15	89.16	87.56 / 60.0	88.58 / 100.0
CIFAR-10 (N)	87.01	86.75	83.42 / 50.0	86.26 / 100.0
CIFAR-100	61.91	61.68	61.05 / 100.0	61.13 / 100.0
Tiny-ImageNet	21.05	21.24	20.40 / 100.0	20.91 / 100.0
平均	65.44	65.31	61.25 / 87.50	64.90 / 99.58

消融实验：关键超参数分析¶

超参数	配置	MA (%)	VR (%)
分区比例 k=0.5%	低水印容量	65.70	84.17
分区比例 k=1.0%（默认）	平衡	65.66	99.17
分区比例 k=5.0%	高水印容量	65.16	100.0
水印数据集 50 样本	数据不足	65.85	54.17
水印数据集 100 样本（默认）	平衡	65.51	99.17
水印数据集 200 样本	数据充足	65.57	100.0
预热比例 α=0	无预热	59.50	100.0
预热比例 α=0.5（默认）	有预热	64.15	100.0
预热比例 α=0.7	过度预热	65.20	降低

关键发现¶

TraMark 实现高追踪率低精度损失：平均 VR 99.58%（FedTracker 仅 87.50%），MA 仅下降 0.54%（FedTracker 下降 4.19%），验证了参数空间划分策略的有效性。
对攻击具有鲁棒性：在 30%-70% 剪枝率下 VR 保持稳定，30 轮微调攻击后 VR 无明显下降，说明水印区域参数与主任务参数高度耦合。
预热训练至关重要：无预热时 MA 降低约 5%，因为初始随机参数无法准确判断重要性，导致划分不当。
水印数据集选择灵活：MNIST、SVHN、WafflePattern 三种水印数据集均能达到 100% VR，差异无统计显著性（p≥0.05）。

亮点¶

首次形式化定义联邦学习中可追踪黑盒水印问题，提出水印碰撞概念和可追踪性约束。
参数空间划分 + 掩码聚合的设计简洁优雅，既避免了水印碰撞又保持了主任务性能。
完全服务器端操作，无需客户端配合，对恶意客户端有天然抵抗力。
水印注入开销极低（每客户端 0.67 秒），可无缝集成到现有 FedAvg 框架。

局限¶

水印数据集需要为每个客户端分配不同的 OOD 触发器类别，在标签数较少的任务中可扩展性受限（10 类主任务 + 10 客户端已经需要 20 类别）。
仅验证了分类任务，对生成、检测等其他任务类型的适用性未探讨。
虽然 k=1% 已足够，但参数空间划分策略基于简单的幅度排序，更精细的重要性度量可能进一步改善主任务性能。

评分¶

维度	评分
新颖性	⭐⭐⭐⭐
有效性	⭐⭐⭐⭐
可复现性	⭐⭐⭐⭐⭐
实用性	⭐⭐⭐⭐