Robust Watermarking on Gradient Boosting Decision Trees¶

会议: AAAI 2026
arXiv: 2511.09822
代码: jc4303/gbdt_watermarking
领域: ai_safety
关键词: 水印, 梯度提升决策树, 知识产权保护, 模型安全, in-place微调

一句话总结¶

提出首个针对 GBDT 模型的鲁棒水印框架，通过 in-place 微调嵌入水印，设计了四种嵌入策略（Wrong Prediction Flip、Outlier Flip、Cluster Center Flip、Confidence Flip），实现高嵌入成功率、低精度损失和强抗微调鲁棒性。

背景与动机¶

GBDT 广泛使用: 梯度提升决策树在结构化数据上表现优异，广泛应用于工业界和学术界，包括隐私敏感和医疗健康领域
水印研究缺失: 神经网络的水印技术已有大量研究，但 GBDT 模型的水印方法严重不足
GBDT 水印的困难:
- 树是顺序构建的，每棵树依赖先前预测的梯度，修改已有树会引起级联破坏
- 树模型不可微分，神经网络的水印方法无法直接迁移
- 随机森林的直接树修改方法不适用于梯度提升模型，因为树之间不独立
现有工作局限: Zhao et al. (KDD 2022) 针对提升树的水印方法仅关注脆弱完整性认证（弱水印），而非鲁棒嵌入

方法详解¶

1. In-place 更新机制¶

传统 GBDT 微调通过添加新树实现（如 XGBoost），但新增的树可以通过剪枝低贡献树轻松移除。本文提出 in-place 更新，直接修改已有树的内部参数而非添加新树，使水印更深度嵌入。

核心流程（Algorithm 1）： - 对每轮 boosting 迭代 \(m\) 和每个类别 \(k\)，计算伪残差构建微调数据集：

\[\mathcal{D}_{\text{fine}}' = \{(\mathbf{x}_i, r_{i,k} - p_{i,k})\}\]

计算新的梯度 \(g_{i,k}'\) 和 Hessian \(h_{i,k}'\)
对树中每个非终端节点（深度优先遍历），重新计算增益和最优分裂 \(S'\)
若新分裂 \(S' \neq S\)，则重训该子树；否则仅更新受影响的叶节点预测值

2. 水印嵌入框架¶

给定候选数据集 \(\mathcal{D}_{\text{cand}}\)，识别候选样本集 \(\mathcal{C}\)，从中选择子集 \(\mathcal{W} \subset \mathcal{C}\)（大小为 \(k\)）进行水印嵌入。每个样本编码一位信息：修改标签为 1，保持原标签为 0。

水印标签设定为最自信的错误预测（排除真实标签和模型原始预测）：

\[y_i^{\text{wm}} = \underset{c \neq y_i,\; c \neq \hat{y}_i}{\text{argmax}}\; F_c(\mathbf{x}_i)\]

3. 四种水印嵌入策略¶

Wrong Prediction Flip（错误预测翻转）: - 从 \(\mathcal{D}_{\text{cand}}\) 中选择模型初始预测错误的样本，取置信度最低的 \(n\) 个作为候选 - 水印标签设为第二高概率的错误类别（而非原始错误预测），避免与无关模型的"困难样本"混淆 - 优势：嵌入发生在本已易错的区域，对整体精度影响最小 - 局限：依赖错误预测数量，GBDT 对训练集通常很准确，候选不足

Outlier Flip（离群点翻转）: - 选择特征空间中距离所有聚类中心最远的 \(n\) 个正确预测样本：

\[\mathcal{C} = \left\{\underset{\mathbf{x}_i \in \mathcal{D}}{\text{argmax}_n}\; \min_{j \in \{1,\dots,m\}} \|\mathbf{x}_i - \boldsymbol{\mu}_j\| \right\}\]

使用 k-Means 聚类，选择使轮廓系数最大的聚类数 \(m\)
在稀疏区域嵌入水印，限制精度影响并增强抗微调鲁棒性

Cluster Center Flip（聚类中心翻转）: - 对数据做聚类，选择每个聚类中最接近质心的样本作为水印候选 - 同时选取其 \(l\) 个最近邻保持原始正确标签——形成局部"空洞" - 通过正确标签邻居锚定决策边界，最小化对全局精度的影响 - 为对抗邻居的反向压力，将质心样本在微调数据中复制一次

Confidence Flip（置信度翻转）: - 选择模型正确预测但置信度最低的 \(n\) 个样本：

\[\mathcal{C} = \underset{\mathbf{x}_i \in \mathcal{D}}{\text{argmin}_n}\; F_{y_i}(\mathbf{x}_i)\]

这些样本位于决策边界附近，标签更容易翻转
嵌入对高置信区域影响最小，鲁棒性较好

4. 候选选择策略¶

从候选集 \(\mathcal{C}\) 中最终选出 \(k\) 个水印样本，提出两种策略：

最低置信度选择: 选预测置信度最低的 \(k\) 个样本，位于决策边界处更易嵌入
最大距离选择: 最大化水印样本间的空间距离，类似 maximum diversity problem（NP-hard），采用贪心近似解

实验¶

实验设置¶

数据集: Avila、Image Segmentation、Letter Recognition、optdigits、pendigits、Wine Quality
场景: \(\mathcal{D}_{\text{cand}} = \mathcal{D}_{\text{train}}\)（内部水印）和 \(\mathcal{D}_{\text{cand}} \neq \mathcal{D}_{\text{train}}\)（事后水印）
水印比例: \(|\mathcal{W}|/|\mathcal{D}_{\text{train}}| \in \{0.001, 0.01, 0.1\}\)
评估指标: 嵌入成功率 \(\mathcal{A}_{\text{wm}}\)、调整后模型精度 \(\mathcal{A}_{\text{model}}' = \mathcal{A}_{\text{model}} \cdot \mathcal{A}_{\text{wm}}\)、微调鲁棒性

水印嵌入成功率（Table 1, \(\mathcal{D}_{\text{cand}} = \mathcal{D}_{\text{train}}\)）¶

方法	ratio=0.001	ratio=0.01	ratio=0.1
Cluster (Conf)	0.792	0.980	0.999
Outlier (Conf)	0.896	0.953	0.999
Conf. (Conf)	0.771	0.951	0.999
Random (Conf)	0.694	0.819	0.982

所有提出的方法平均成功率显著高于随机基线，尤其在较大水印比例下接近 100%。

调整后模型精度（Table 3, \(\mathcal{D}_{\text{cand}} = \mathcal{D}_{\text{train}}\)）¶

方法	ratio=0.001	ratio=0.01	ratio=0.1
Cluster (Conf)	0.699	0.880	0.872
Outlier (Conf)	0.802	0.854	0.869
Conf. (Conf)	0.681	0.854	0.880
Random (Conf)	0.603	0.729	0.877

Cluster Flip 和 Confidence Flip 在保持模型精度方面表现竞争力强，均优于随机基线。

微调鲁棒性（Table 5, \(\mathcal{D}_{\text{cand}} = \mathcal{D}_{\text{train}}\)）¶

方法	ratio=0.001	ratio=0.01	ratio=0.1
Cluster (Conf)	0.875	0.958	0.962
Conf. (Conf)	0.833	0.968	0.986
Conf. (Dist)	0.833	0.976	0.989
Random (Conf)	0.778	0.865	0.923

Confidence Flip 在鲁棒性方面整体略优，水印在进一步微调后仍能保持高检测率。

主要发现¶

In-place 微调是关键: 通过直接修改现有树结构而非添加新树，避免了水印被简单剪枝移除
四种策略各有适用场景: Wrong Prediction Flip 成功率最高但候选受限；Cluster Center Flip 精度保持最好；Confidence Flip 鲁棒性最强；Outlier Flip 在分布相似时表现稳定
水印比例越大越稳定: ratio=0.1 时各方法成功率和鲁棒性均接近满分
候选数据来源影响效果: 使用独立数据集 (\(\mathcal{D}_{\text{cand}} \neq \mathcal{D}_{\text{train}}\)) 避免梯度冲突，但内部数据集通过复制因子也可获得良好效果

亮点¶

首创性: 首个针对 GBDT 的鲁棒水印框架，填补了树模型知识产权保护的重要空白
系统化设计: 四种嵌入策略 + 两种候选选择策略形成完整的方法矩阵，不同场景有针对性方案
实用性强: 支持内部水印和事后水印两种场景，适用于模型发布后的第三方保护
理论分析扎实: 对梯度方向的分析表明了水印嵌入的理论约束，增强了方法的可解释性

局限性¶

仅验证分类任务: 未探索回归任务或其他 GBDT 应用场景
聚类参数敏感: Outlier Flip 和 Cluster Center Flip 的效果依赖聚类质量和参数选择
分布假设: Outlier Flip 假设微调数据和候选数据分布相似，现实中不一定成立
Wrong Prediction Flip 受限: 强模型几乎没有错误预测，极大限制了该策略的适用性
未讨论计算开销: 缺少对 in-place 更新相比标准微调的时间/空间复杂度分析
对抗性攻击未考虑: 仅评估了常规微调的鲁棒性，未考虑针对性的水印移除攻击

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将鲁棒水印概念引入 GBDT，problem formulation 有开创意义
技术深度: ⭐⭐⭐ — 四种策略设计合理但技术门槛不高，in-place 更新是关键创新
实验充分性: ⭐⭐⭐⭐ — 多数据集、多比例、多场景的系统对比，但缺少与其他潜在方法的比较
实用价值: ⭐⭐⭐⭐ — 直接解决 GBDT 模型的 IP 保护需求，工业界和法律场景有实际意义
总体推荐: ⭐⭐⭐⭐ — 填补重要空白的 solid work，方法虽不复杂但系统完善