跳转至

Knowledge Distillation Detection for Open-weights Models

会议: NeurIPS 2025
arXiv: 2510.02302
代码: GitHub (有)
领域: image_generation / AI安全
关键词: 知识蒸馏检测, 模型溯源, 数据无关合成, 统计检测, 文本到图像生成

一句话总结

提出知识蒸馏检测任务,通过无数据输入合成和统计评分框架,判断一个开放权重的学生模型是否由特定教师模型蒸馏而来。

研究背景与动机

领域现状:知识蒸馏技术广泛用于模型压缩,从大型教师模型向小型学生模型传递知识,在图像分类、LLM、文生图等领域取得成功。

现有痛点:蒸馏技术可能被滥用于未经授权地克隆专有模型,侵犯知识产权;但目前缺乏有效手段检测模型是否被蒸馏。

核心矛盾:现有方法(如成员推理攻击、OOD检测)主要关注训练数据检测,无法直接判断模型间的蒸馏关系。

本文目标:在仅有学生模型权重和教师模型API的实际场景下,检测学生模型是否由特定教师蒸馏。

切入角度:将问题建模为多选题形式,从候选教师集合中选择最可能的蒸馏来源。

核心 idea:通过数据无关的输入合成+统计评分的通用框架,比较学生与候选教师的输出对齐程度来检测蒸馏。

方法详解

整体框架

三阶段检测流水线:输入构造评分计算决策预测。给定开放权重学生模型和K个候选教师模型的API,生成合成输入来探测模型行为,计算学生与各教师的对齐分数,选择分数最高的教师作为蒸馏来源。

关键设计

  1. 预测决策(Score Maximization)

    • 功能:从K个候选教师中选出蒸馏来源
    • 为什么:多选题形式避免了阈值校准问题
    • 怎么做:\(k^* = \arg\max_{k \in \{1,...,K\}} S(g_\theta, f^{(k)}, \mathcal{P})\)
    • 区别:可通过阈值自然扩展到二分类检测
  2. 点级评分(Point-wise Score)

    • 功能:逐样本计算学生与教师输出的差异
    • 为什么:简单有效,即使单个输入也能工作
    • 怎么做:对每个输入 \(x_n\) 计算 \(s_n^{(k)} = \frac{1}{\delta(g_\theta(x_n), f^{(k)}(x_n)) + \epsilon}\),取平均
    • 分类任务使用KL散度,文生图任务使用LPIPS
  3. 集合级评分(Set-level Score)

    • 功能:度量整体分布对齐
    • 为什么:捕获全局分布级别的对齐模式
    • 怎么做:分类任务使用Aligned Cosine Similarity (ACS),文生图任务使用CKA with RBF Kernels
    • 区别:需要多个输入样本才能计算
  4. 输入构造(Data-free Input Synthesis)

    • 功能:在无训练数据条件下生成合成查询
    • 为什么:实际场景中无法获取训练数据
    • 怎么做(分类):训练生成器 \(G_\phi\),使用mixup策略 + BNS损失对齐批归一化统计量
    • 怎么做(文生图):直接使用空字符串作为prompt(利用CFG训练中的无条件生成)
    • 关键公式:\(\min_\phi \sum_{i=1}^C w_i \cdot \mathcal{L}_{hard}(g_\theta(\hat{x}(\phi)), y_i) + \mathcal{L}_{BNS}(g_\theta, \hat{x}(\phi))\)

损失函数 / 训练策略

  • 生成器训练:交叉熵损失 \(\mathcal{L}_{hard}\) + BNS对齐损失 \(\mathcal{L}_{BNS}\)
  • BNS损失:\(\mathcal{L}_{BNS} = \sum_{l=1}^{L} \|\mu_l^r - \mu_l\|_2^2 + \|\sigma_l^r - \sigma_l\|_2^2\)
  • 文生图场景用空字符串作为输入,利用CFG训练的无条件生成特性

实验关键数据

主实验

CIFAR-10 蒸馏检测 (N=100合成输入, Acc./AUC):

方法 N=1 N=50 N=100 平均
MIA Filter + KL 0.43/0.66 0.54/0.79 0.55/0.80 0.51/0.75
OOD Filter + KL 0.42/0.68 0.55/0.79 0.54/0.80 0.50/0.75
Ours (KL) 0.62/0.75 0.87/0.94 0.87/0.94 0.81/0.89
Oracle 0.45/0.64 0.87/0.96 0.95/0.99 0.70/0.84

文生图模型蒸馏检测 (Acc./AUC):

方法 N=1 N=10 N=100 平均
GPT-2 + DINO 0.81/0.87 0.80/0.94 0.80/0.95 0.80/0.92
Blip-Base + CLIP 0.71/0.78 0.81/0.93 0.83/0.96 0.79/0.91
Ours (LPIPS) 0.89/1.00 0.97/1.00 1.00/0.99 0.96/1.00

消融实验

设置 CIFAR-10 ImageNet 平均
OOD filter + ACS 0.56/0.77 0.37/0.52 0.47/0.65
Synthetic Data + CKA 0.82/0.77
Ours (完整) 0.87/0.94 0.75/0.92

关键发现

  • 即使只用1个合成输入,方法就能取得远超基线的效果
  • 在CIFAR-10上,方法甚至超越使用真实数据的Oracle
  • 文生图检测N=10时就达到0.97准确率,利用CFG的空字符串prompt效果极佳
  • vanilla KD比RKD和OFAKD更容易被检测到

亮点与洞察

  • 问题新颖:首次系统定义了知识蒸馏检测任务,具有重要的知识产权保护意义
  • 方法通用:同一框架适用于分类和生成模型,模型无关
  • 数据无关:完全不需要训练数据,仅依赖模型权重和API
  • 空字符串prompt的巧妙:利用CFG训练中的无条件建模特性,使得空字符串成为天然的分布内探测输入

局限与展望

  • 当前仅考虑多选题设定,二分类检测需要阈值校准
  • 分类任务中依赖BatchNorm统计量的生成器训练,对无BN架构(如ViT)可能受限
  • 未考虑对抗性场景:蒸馏者可能故意混淆模型行为以规避检测
  • 可扩展到LLM蒸馏检测场景

相关工作与启发

  • 与模型水印互补:水印是主动防御,本文是被动检测
  • 数据无关量化/蒸馏中的合成数据技术被创造性地用于检测目的
  • AIforGood视角:开源模型的安全性和可追溯性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首创蒸馏检测任务,问题定义独到
  • 实验充分度: ⭐⭐⭐⭐ 覆盖分类和生成两大类任务,多种蒸馏方法
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导规范
  • 价值: ⭐⭐⭐⭐ 对AI安全和知识产权保护有实际意义

相关论文