Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning¶
会议: ICCV 2025
arXiv: 2509.07879
代码: https://github.com/DanieldeAlcala/Membership-Inference-Test.git (有)
领域: AI安全/隐私
关键词: 成员推断, 模型可审计性, 多任务学习, 数据隐私, 训练数据检测
一句话总结¶
提出Active MINT(aMINT),将成员推断检测作为训练时的优化目标,通过多任务学习让被审计模型与MINT模型联合训练、共享早期特征层,在不显著损失主任务性能的前提下,将训练数据的识别准确率从被动MINT的~60%大幅提升至80%以上。
背景与动机¶
随着欧盟AI法案(2024年6月)和美国白宫AI安全备忘录(2024年10月)等法规相继出台,AI模型的可审计性成为法律层面的硬需求——开发者需要证明模型训练所用数据的合规性。在此背景下,成员推断(Membership Inference)技术成为核心工具:给定一条数据,判断它是否参与了模型训练。
现有方法分两大类: 1. 成员推断攻击(MIA):Shokri等人(2017)开创的攻击范式,攻击者无法获得模型开发者配合,需要训练"影子模型"来模拟原模型行为,本质上是一种对抗性方法。 2. 成员推断测试(MINT):DeAlcala等人(2024)提出的审计范式,审计方可以获得模型开发者的有限配合(如访问训练好的模型),利用模型内部激活图来训练MINT模型进行检测。
但这两类方法都有一个共同问题:它们都是事后被动的——在模型训练完成后才介入。被动MINT在多数场景下准确率仅在50%-65%之间,离实际可用还有很大差距。核心原因在于,训练好的模型本身并没有被优化为"容易被审计"的,审计信号很弱。
核心问题¶
能否在模型训练阶段就主动嵌入可审计性,让模型在训练过程中同时学习"完成主任务"和"暴露自己用了哪些训练数据"这两个目标?如果可以,如何在两个本质矛盾的目标(主任务要求泛化,MINT任务要求区分训练/非训练数据)之间取得平衡?
方法详解¶
整体框架¶
aMINT的核心思想是构建一个增强审计模型(Enhanced Audited Model,\(M^+\)),它包含两部分: - 被审计模型(Audited Model,\(M\)):执行原始任务(如图像分类) - MINT模型(\(T\)):判断输入数据是否属于训练集
输入数据 \(d\)(来自训练数据 \(\mathcal{D}\) 或外部数据 \(\mathcal{E}\))经过共享的前层后,分流到两条路径:主任务路径输出分类结果 \(y_1\),MINT路径输出成员概率 \(y_2\)。关键在于,前面若干层是共享的,这些共享层需要同时为两个任务服务。
训练时每个批次同时包含 \(\mathcal{D}\) 和 \(\mathcal{E}\) 的样本。\(\mathcal{D}\) 的样本走两条路径(主任务+MINT),\(\mathcal{E}\) 的样本只走MINT路径。
关键设计¶
- 辅助可审计数据(AAD)提取:从网络的两个不同深度位置提取中间激活图作为MINT模型的输入。论文探索了三种配置:
- Entry Setup:从第一个卷积块的最后两层提取(共享层最少)
- Middle Setup:从中间卷积块提取
- Output Setup:从最后一个卷积块提取(共享层最多)
实验表明Entry和Middle效果相当,Output最差——因为共享层越多,两个矛盾目标的冲突越严重。
-
MINT模型架构:对于CNN类架构(ResNet, MobileNet, DenseNet, Xception),MINT模型使用CNN分析激活图;对于ViT,由于激活图是序列形式,MINT模型改用全连接层。两条AAD路径各自经过卷积处理后,通过全局池化和拼接得到特征向量,再经两层全连接层输出二分类结果。
-
主动 vs 被动的本质区别:被动MINT在模型训练完成后才介入,共享层的参数只为主任务优化过;主动MINT的共享层在训练时就同时为两个任务优化,从而让模型的前层特征天然地包含更多可区分训练/非训练数据的信息。
损失函数 / 训练策略¶
多任务损失函数:
- 两个损失都做了归一化处理,确保量级一致
- \(\lambda_1, \lambda_2\) 控制两个任务的权重,需根据任务难度调整(简单任务如MNIST上 \(\lambda_2/\lambda_1=10\),复杂任务如Tiny ImageNet上可达\(10000\))
- \(R(w^+)\) 是L2正则化项
- \(\mathcal{L}_{\text{MINT}}\) 是二元交叉熵损失
- 采用early stopping策略,简单任务约50个epoch,复杂任务约100个epoch
实验关键数据¶
Active MINT vs Passive MINT(Entry Setup, 最佳配置)¶
| 数据集 | 模型 | Active MINT准确率 | Passive MINT准确率 | 审计模型性能损失 |
|---|---|---|---|---|
| MNIST | MobileNet | 0.86 | 0.52 | 0.96→0.96(无损失) |
| MNIST | DenseNet121 | 0.82 | 0.52 | 0.99→0.99(无损失) |
| CIFAR-10 | ResNet50 | 0.86 | 0.66 | 0.55→0.53(-2%) |
| CIFAR-10 | DenseNet121 | 0.86 | 0.60 | 0.80→0.80(无损失) |
| GTSRB | MobileNet | 0.89 | 0.59 | 0.92→0.89(-3%) |
| Tiny ImageNet | Xception | 0.88 | 0.65 | 0.28→0.28(无损失) |
| CASIA WebFace | MobileNet | 0.86 | 0.60 | 0.17→0.15(-2%) |
与MIA方法对比(ResNet50)¶
| 方法 | CIFAR-10 | GTSRB |
|---|---|---|
| Salem et al. MIA | 0.61 | 0.67 |
| Yeom et al. MIA | 0.64 | 0.79 |
| Song et al. MIA | 0.65 | 0.68 |
| Watson et al. MIA | 0.63 | 0.79 |
| Passive MINT | 0.66 | 0.61 |
| Active MINT (本文) | 0.86 | 0.86 |
消融实验要点¶
- AAD提取位置:Entry ≈ Middle >> Output。Output Setup因共享层过多导致两个矛盾目标无法调和,表现最差。Entry Setup在审计模型性能上略优于Middle,因此推荐使用Entry Setup。
- \(\lambda_2/\lambda_1\) 比例关键:需要根据主任务的难度动态调整。简单数据集(MNIST)比例为10,复杂数据集(Tiny ImageNet)需要增大到10000才能让MINT任务有效学习。
- 架构覆盖广:从轻量级MobileNet到ViT,Active MINT都能稳定实现80%+的MINT准确率,说明方法对架构不敏感。
- 多任务带来的主任务损失极小:在大多数配置下审计模型性能几乎无损,最大损失不超过3个百分点。
亮点¶
- "主动审计"的范式转换:将可审计性从事后检测变为训练时优化目标,是一个简洁而有力的思路。这个范式转变使得MINT准确率从~60%跃升至80%+。
- 损失归一化+权重平衡:两个量级不同的损失通过归一化和\(\lambda\)调节实现平衡,这个多任务训练trick在两个目标本质矛盾时尤为重要。
- 共享层深度的insight:Entry Setup > Output Setup的结论揭示了一个有趣的规律——当两个任务矛盾时,共享层越少越好,这与通常多任务学习中"共享更多层有利于效率"的直觉相反。
- 部署可行性讨论:论文讨论了Docker容器hash验证、数字签名日志、多方计算(MPC)等实际部署策略,增强了工作的实用性。
局限性 / 可改进方向¶
- 仅验证了图像分类任务:作者使用图像识别作为唯一的审计任务类型,尚未在目标检测、分割、生成模型、NLP等更多任务上验证。
- 数据集50/50划分的假设较强:实验中将训练集一分为二,50%作为训练数据\(\mathcal{D}\),50%作为外部数据\(\mathcal{E}\)。实际场景中这个比例可能差异很大。
- 开发者信任问题未完全解决:虽然论文讨论了Docker验证等策略,但如果开发者恶意不配合或篡改训练流程,Active MINT的前提就不成立了。
- 缺少对大规模模型和数据集的验证:最大的数据集是CASIA WebFace(500K),最复杂的模型是ViT,尚未在ImageNet规模或更大的foundation model上测试。
- 两个任务的矛盾性可能在更复杂场景下导致更大的performance trade-off,论文中提到的元优化、冲突感知梯度下降等方法值得进一步探索。
与相关工作的对比¶
- vs Passive MINT (DeAlcala et al., 2024):Passive MINT在模型训练后才训练MINT模型,准确率50%-65%;Active MINT通过联合训练将准确率提升至80%+,但需要开发者主动参与训练过程。Active MINT还扩展了Passive MINT,使用两个激活图而非一个。
- vs MIA方法 (Shokri et al., 2017; Salem et al., 2018等):MIA是攻击范式,不需要开发者配合但需要训练影子模型。在相同架构下(ResNet50),Active MINT以0.86的准确率大幅超越所有MIA方法(最高0.79),但前提条件不同——aMINT需要开发者配合。
- vs Nasr et al. (2019) 的对抗正则化:Nasr的工作是训练模型时通过正则化来防止MIA成功(即降低可被攻击性),与aMINT的目标正好相反——aMINT是训练时主动增强可被审计性。两者在多任务训练框架上有相似性,但优化方向完全相反。
启发与关联¶
- 多任务矛盾目标的平衡:aMINT中审计任务(要求泛化)和MINT任务(要求区分训练/非训练数据)的矛盾,与对抗训练中生成器和判别器的博弈有异曲同工之处。这种"有意引入矛盾任务"来增强模型某种属性的思路,可以迁移到模型水印、数据溯源等场景。
- 与模型水印的关系:aMINT可以看作一种隐式水印——不是在数据上加标记,而是让模型的特征空间本身就能区分"见过"和"没见过"的数据。这为数据版权保护提供了新思路。
- 可扩展到生成模型审计:当前仅验证了判别式模型,但核心思想(联合训练主模型+审计模型)理论上可以迁移到扩散模型、LLM等生成式模型的数据使用审计上。
评分¶
- 新颖性: ⭐⭐⭐⭐ 主动审计范式虽新颖,但核心技术(多任务学习+激活图分析)较为常规
- 实验充分度: ⭐⭐⭐⭐⭐ 6种架构×5个数据集×3种setup配置,覆盖面非常广,对比也充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,概念定义明确,部署讨论增强实用性
- 价值: ⭐⭐⭐⭐ 为AI合规审计提供了新工具,但实际部署还需解决大规模验证和信任机制问题