跳转至

Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning

会议: ICCV 2025
arXiv: 2509.07879
代码: https://github.com/DanieldeAlcala/Membership-Inference-Test.git (有)
领域: AI安全/隐私
关键词: 成员推断, 模型可审计性, 多任务学习, 数据隐私, 训练数据检测

一句话总结

提出Active MINT(aMINT),将成员推断检测作为训练时的优化目标,通过多任务学习让被审计模型与MINT模型联合训练、共享早期特征层,在不显著损失主任务性能的前提下,将训练数据的识别准确率从被动MINT的~60%大幅提升至80%以上。

背景与动机

随着欧盟AI法案(2024年6月)和美国白宫AI安全备忘录(2024年10月)等法规相继出台,AI模型的可审计性成为法律层面的硬需求——开发者需要证明模型训练所用数据的合规性。在此背景下,成员推断(Membership Inference)技术成为核心工具:给定一条数据,判断它是否参与了模型训练。

现有方法分两大类: 1. 成员推断攻击(MIA):Shokri等人(2017)开创的攻击范式,攻击者无法获得模型开发者配合,需要训练"影子模型"来模拟原模型行为,本质上是一种对抗性方法。 2. 成员推断测试(MINT):DeAlcala等人(2024)提出的审计范式,审计方可以获得模型开发者的有限配合(如访问训练好的模型),利用模型内部激活图来训练MINT模型进行检测。

但这两类方法都有一个共同问题:它们都是事后被动的——在模型训练完成后才介入。被动MINT在多数场景下准确率仅在50%-65%之间,离实际可用还有很大差距。核心原因在于,训练好的模型本身并没有被优化为"容易被审计"的,审计信号很弱。

核心问题

能否在模型训练阶段就主动嵌入可审计性,让模型在训练过程中同时学习"完成主任务"和"暴露自己用了哪些训练数据"这两个目标?如果可以,如何在两个本质矛盾的目标(主任务要求泛化,MINT任务要求区分训练/非训练数据)之间取得平衡?

方法详解

整体框架

aMINT的核心思想是构建一个增强审计模型(Enhanced Audited Model,\(M^+\)),它包含两部分: - 被审计模型(Audited Model,\(M\)):执行原始任务(如图像分类) - MINT模型\(T\)):判断输入数据是否属于训练集

输入数据 \(d\)(来自训练数据 \(\mathcal{D}\) 或外部数据 \(\mathcal{E}\))经过共享的前层后,分流到两条路径:主任务路径输出分类结果 \(y_1\),MINT路径输出成员概率 \(y_2\)。关键在于,前面若干层是共享的,这些共享层需要同时为两个任务服务。

训练时每个批次同时包含 \(\mathcal{D}\)\(\mathcal{E}\) 的样本。\(\mathcal{D}\) 的样本走两条路径(主任务+MINT),\(\mathcal{E}\) 的样本只走MINT路径。

关键设计

  1. 辅助可审计数据(AAD)提取:从网络的两个不同深度位置提取中间激活图作为MINT模型的输入。论文探索了三种配置:
  2. Entry Setup:从第一个卷积块的最后两层提取(共享层最少)
  3. Middle Setup:从中间卷积块提取
  4. Output Setup:从最后一个卷积块提取(共享层最多)

实验表明Entry和Middle效果相当,Output最差——因为共享层越多,两个矛盾目标的冲突越严重。

  1. MINT模型架构:对于CNN类架构(ResNet, MobileNet, DenseNet, Xception),MINT模型使用CNN分析激活图;对于ViT,由于激活图是序列形式,MINT模型改用全连接层。两条AAD路径各自经过卷积处理后,通过全局池化和拼接得到特征向量,再经两层全连接层输出二分类结果。

  2. 主动 vs 被动的本质区别:被动MINT在模型训练完成后才介入,共享层的参数只为主任务优化过;主动MINT的共享层在训练时就同时为两个任务优化,从而让模型的前层特征天然地包含更多可区分训练/非训练数据的信息。

损失函数 / 训练策略

多任务损失函数:

\[\mathcal{L}_{\text{Multi-task}} = \lambda_1 \frac{\mathcal{L}_{\text{Audited}}}{\|\mathcal{L}_{\text{Audited}}\|} + \lambda_2 \frac{\mathcal{L}_{\text{MINT}}}{\|\mathcal{L}_{\text{MINT}}\|} + R(w^+)\]
  • 两个损失都做了归一化处理,确保量级一致
  • \(\lambda_1, \lambda_2\) 控制两个任务的权重,需根据任务难度调整(简单任务如MNIST上 \(\lambda_2/\lambda_1=10\),复杂任务如Tiny ImageNet上可达\(10000\)
  • \(R(w^+)\) 是L2正则化项
  • \(\mathcal{L}_{\text{MINT}}\) 是二元交叉熵损失
  • 采用early stopping策略,简单任务约50个epoch,复杂任务约100个epoch

实验关键数据

Active MINT vs Passive MINT(Entry Setup, 最佳配置)

数据集 模型 Active MINT准确率 Passive MINT准确率 审计模型性能损失
MNIST MobileNet 0.86 0.52 0.96→0.96(无损失)
MNIST DenseNet121 0.82 0.52 0.99→0.99(无损失)
CIFAR-10 ResNet50 0.86 0.66 0.55→0.53(-2%)
CIFAR-10 DenseNet121 0.86 0.60 0.80→0.80(无损失)
GTSRB MobileNet 0.89 0.59 0.92→0.89(-3%)
Tiny ImageNet Xception 0.88 0.65 0.28→0.28(无损失)
CASIA WebFace MobileNet 0.86 0.60 0.17→0.15(-2%)

与MIA方法对比(ResNet50)

方法 CIFAR-10 GTSRB
Salem et al. MIA 0.61 0.67
Yeom et al. MIA 0.64 0.79
Song et al. MIA 0.65 0.68
Watson et al. MIA 0.63 0.79
Passive MINT 0.66 0.61
Active MINT (本文) 0.86 0.86

消融实验要点

  • AAD提取位置:Entry ≈ Middle >> Output。Output Setup因共享层过多导致两个矛盾目标无法调和,表现最差。Entry Setup在审计模型性能上略优于Middle,因此推荐使用Entry Setup。
  • \(\lambda_2/\lambda_1\) 比例关键:需要根据主任务的难度动态调整。简单数据集(MNIST)比例为10,复杂数据集(Tiny ImageNet)需要增大到10000才能让MINT任务有效学习。
  • 架构覆盖广:从轻量级MobileNet到ViT,Active MINT都能稳定实现80%+的MINT准确率,说明方法对架构不敏感。
  • 多任务带来的主任务损失极小:在大多数配置下审计模型性能几乎无损,最大损失不超过3个百分点。

亮点

  • "主动审计"的范式转换:将可审计性从事后检测变为训练时优化目标,是一个简洁而有力的思路。这个范式转变使得MINT准确率从~60%跃升至80%+。
  • 损失归一化+权重平衡:两个量级不同的损失通过归一化和\(\lambda\)调节实现平衡,这个多任务训练trick在两个目标本质矛盾时尤为重要。
  • 共享层深度的insight:Entry Setup > Output Setup的结论揭示了一个有趣的规律——当两个任务矛盾时,共享层越少越好,这与通常多任务学习中"共享更多层有利于效率"的直觉相反。
  • 部署可行性讨论:论文讨论了Docker容器hash验证、数字签名日志、多方计算(MPC)等实际部署策略,增强了工作的实用性。

局限性 / 可改进方向

  • 仅验证了图像分类任务:作者使用图像识别作为唯一的审计任务类型,尚未在目标检测、分割、生成模型、NLP等更多任务上验证。
  • 数据集50/50划分的假设较强:实验中将训练集一分为二,50%作为训练数据\(\mathcal{D}\),50%作为外部数据\(\mathcal{E}\)。实际场景中这个比例可能差异很大。
  • 开发者信任问题未完全解决:虽然论文讨论了Docker验证等策略,但如果开发者恶意不配合或篡改训练流程,Active MINT的前提就不成立了。
  • 缺少对大规模模型和数据集的验证:最大的数据集是CASIA WebFace(500K),最复杂的模型是ViT,尚未在ImageNet规模或更大的foundation model上测试。
  • 两个任务的矛盾性可能在更复杂场景下导致更大的performance trade-off,论文中提到的元优化、冲突感知梯度下降等方法值得进一步探索。

与相关工作的对比

  1. vs Passive MINT (DeAlcala et al., 2024):Passive MINT在模型训练后才训练MINT模型,准确率50%-65%;Active MINT通过联合训练将准确率提升至80%+,但需要开发者主动参与训练过程。Active MINT还扩展了Passive MINT,使用两个激活图而非一个。
  2. vs MIA方法 (Shokri et al., 2017; Salem et al., 2018等):MIA是攻击范式,不需要开发者配合但需要训练影子模型。在相同架构下(ResNet50),Active MINT以0.86的准确率大幅超越所有MIA方法(最高0.79),但前提条件不同——aMINT需要开发者配合。
  3. vs Nasr et al. (2019) 的对抗正则化:Nasr的工作是训练模型时通过正则化来防止MIA成功(即降低可被攻击性),与aMINT的目标正好相反——aMINT是训练时主动增强可被审计性。两者在多任务训练框架上有相似性,但优化方向完全相反。

启发与关联

  • 多任务矛盾目标的平衡:aMINT中审计任务(要求泛化)和MINT任务(要求区分训练/非训练数据)的矛盾,与对抗训练中生成器和判别器的博弈有异曲同工之处。这种"有意引入矛盾任务"来增强模型某种属性的思路,可以迁移到模型水印、数据溯源等场景。
  • 与模型水印的关系:aMINT可以看作一种隐式水印——不是在数据上加标记,而是让模型的特征空间本身就能区分"见过"和"没见过"的数据。这为数据版权保护提供了新思路。
  • 可扩展到生成模型审计:当前仅验证了判别式模型,但核心思想(联合训练主模型+审计模型)理论上可以迁移到扩散模型、LLM等生成式模型的数据使用审计上。

评分

  • 新颖性: ⭐⭐⭐⭐ 主动审计范式虽新颖,但核心技术(多任务学习+激活图分析)较为常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 6种架构×5个数据集×3种setup配置,覆盖面非常广,对比也充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,概念定义明确,部署讨论增强实用性
  • 价值: ⭐⭐⭐⭐ 为AI合规审计提供了新工具,但实际部署还需解决大规模验证和信任机制问题