IrisFP: Adversarial-Example-based Model Fingerprinting with Enhanced Uniqueness and Robustness¶

会议: CVPR 2026
arXiv: 2603.24996
代码: 无
领域: 其他
关键词: 模型指纹, 对抗样本, 知识产权保护, 所有权验证, 决策边界

一句话总结¶

提出IrisFP模型指纹框架，通过将指纹放置在多类决策边界交叉点处、构建复合样本指纹、以及基于统计可分性的指纹筛选三项创新，同时增强指纹的唯一性和鲁棒性，在5个数据集上AUC一致超过SOTA方法。

研究背景与动机¶

基于对抗样本的模型指纹技术通过向干净输入添加微小扰动来引出模型特定的响应行为，用于DNN的知识产权保护和所有权验证。现有方法面临唯一性与鲁棒性之间的根本冲突：

唯一性问题：指纹需要靠近决策边界以捕获模型特定行为，但现有方法只针对单一边界，导致区分力不足
鲁棒性问题：模型修改攻击（微调、剪枝、对抗训练等）会移动决策边界，使指纹失效。为增强鲁棒性，先前方法将指纹放在目标类区域深处，但这又损害了唯一性

核心矛盾：现有方法要么弱唯一性，要么弱鲁棒性，无法两全。

本文关键洞察：位于多类决策边界交叉点处的样本具有更大的预测裕量（predicted margin），即目标类置信度高但与所有其他类距离近。这样既保持了模型敏感性（唯一性），又增加了预测裕量（鲁棒性），无需将指纹放在深层区域。

方法详解¶

整体框架¶

IrisFP包含两个主流程： 1. 指纹生成：三阶段——指纹种子初始化 → 复合样本指纹生成 → 指纹集筛选 2. 所有权验证：两步——所有权匹配 → 决策聚合

关键设计¶

多边界交叉点指纹种子初始化（Phase I）:
- 功能：将指纹放置在受保护模型的所有决策边界交叉处
- 核心思路：对每个输入 \(x_i^0\)，定义一个偏向目标类 \(\hat{y}_i^0\) 的概率分布 \(p_i\)，其中目标类概率 \(\frac{1}{C}+\tau\)，其余类均匀分配剩余概率。通过最小化KL散度 \(\mathcal{L}_{phase1} = KL(f_o(\hat{x}_i^0) || p_i) + \lambda_1\|\delta_i^0\|_1\) 使模型输出分布逼近该偏向分布
- 设计动机：与传统方法只推向单一边界不同，该策略使指纹同时靠近所有边界。τ控制偏向程度，较小的τ使指纹更接近交叉点中心，增大预测裕量
复合样本指纹生成（Phase II）:
- 功能：通过多样本集体行为进一步增强唯一性
- 核心思路：对每个指纹种子 \(\hat{x}_i^0\) 应用T个微小的可训练扰动 \(\{\delta_i^1, ..., \delta_i^T\}\)，每个变体被分配不同的随机目标类。同样使用偏向概率分布+KL散度优化，使所有变体都位于多边界交叉点附近但产生不同的预测输出
- 设计动机：单个指纹的行为可能被独立训练的模型偶然复制，但一组样本的集体行为模式（T+1个样本各自的预测）极难被复制，显著增强区分能力
指纹集筛选与自适应阈值（Phase III）:
- 功能：保留区分力最强的指纹并为每个指纹分配最优阈值
- 核心思路：
  - 构建两个参考模型集：盗版模型集 \(\mathcal{V}_f\)（通过FT/KD/AT生成）和独立模型集 \(\mathcal{I}_f\)（独立训练）
  - 计算每个复合指纹在两个集上的匹配率分布，用Cohen's d效应量 \(d_i = (\mu_i^{\mathcal{V}} - \mu_i^{\mathcal{I}}) / \sqrt{\frac{1}{2}((\sigma_i^{\mathcal{V}})^2 + (\sigma_i^{\mathcal{I}})^2)}\) 量化区分力
  - 选择top-K高区分力指纹
  - 为每个选定指纹计算自适应阈值 \(\theta_i\)：盗版集和独立集匹配率均值的加权平均，权重与标准差成反比
- 设计动机：现有方法在指纹构建时完全忽略模型修改和独立训练的影响，IrisFP通过参考模型集进行质量评估。自适应阈值避免了全局固定阈值的次优性

损失函数 / 训练策略¶

Phase I：\(\mathcal{L}_{phase1} = KL(f_o(\hat{x}_i^0) || p_i) + \lambda_1\|\delta_i^0\|_1\)
Phase II：\(\mathcal{L}_{phase2} = \frac{1}{T}\sum_{t=1}^T [KL(f_o(\hat{x}_i^t) || p_i^t) + \lambda_2\|\delta_i^t\|_1]\)
验证阈值：双步决策——单指纹匹配率≥θ_i判为匹配，匹配指纹比例≥α判为盗版

实验关键数据¶

主实验 — AUC对比¶

受保护模型	方法	CIFAR-10	CIFAR-100	Fashion-MNIST	MNIST	Tiny-ImageNet
ResNet-18	IPGuard	0.675	0.654	0.721	0.471	0.726
ResNet-18	ADV-TRA	0.799	0.806	0.845	0.753	0.767
ResNet-18	AKH	0.710	0.785	0.765	0.820	0.823
ResNet-18	IrisFP	0.893	0.916	0.940	0.854	0.874
MobileNet-V2	IrisFP	0.936	0.937	0.963	0.876	0.934
ViT-B/16	IrisFP	—	—	—	—	0.887

模型修改攻击鲁棒性（ResNet-18, CIFAR-10）¶

方法	FT	PR	KD	AT	PFT	NFT
IPGuard	0.656	0.997	0.515	0.511	0.687	0.724
ADV-TRA	1.000	1.000	0.805	0.025	0.959	0.962
AKH	0.921	0.876	0.621	0.531	0.701	0.733
IrisFP	0.954	1.000	0.616	0.929	0.965	0.968

消融实验¶

配置	CIFAR-10 AUC	说明
Seed	0.691	仅种子
Seed_s	0.748	+指纹筛选
Com_ft	~0.79	+复合样本+固定阈值
Com_s_ft	0.812	+复合样本+筛选+固定阈值
IrisFP	0.893	+复合样本+筛选+自适应阈值

关键发现¶

IrisFP在对抗训练（AT）攻击下表现尤为突出——ADV-TRA在CIFAR-10上AT攻击下AUC仅0.025（几乎完全失效），而IrisFP达0.929
复合样本机制和指纹筛选是独立有效的，自适应阈值从0.812提升到0.893贡献最大
在更复杂的ViT-B/16架构上仍然有效（AUC 0.887）

亮点与洞察¶

多边界交叉点定位的核心洞察简单但深刻：靠近所有边界反而比深入目标类区域更鲁棒，因为预测裕量更大
复合样本指纹利用集体行为模式而非单样本匹配，显著提升了唯一性
Cohen's d效应量和自适应阈值为指纹质量评估提供了有统计学依据的定量方法
方法是黑盒验证——仅需查询模型输出即可

局限与展望¶

知识蒸馏（KD）攻击下性能相对较弱（如CIFAR-10上AUC 0.616），因为KD可以根本改变模型的决策边界结构
需要构建参考盗版模型集和独立模型集进行指纹筛选，增加了前期成本
仅在图像分类任务上验证，对检测、分割等任务的适用性未知
200次查询的预算假设在某些场景下可能过高

评分¶

新颖性: ⭐⭐⭐⭐ 多边界交叉+复合样本+统计筛选三重创新，同时解决唯一性和鲁棒性
实验充分度: ⭐⭐⭐⭐⭐ 5数据集、3架构、6种攻击、4个基线、详细消融，非常全面
写作质量: ⭐⭐⭐⭐ 动机清晰，方法层层递进，但符号较多
价值: ⭐⭐⭐ 模型知识产权保护的实际需求明确，但应用场景相对窄