Who Taught You That? Tracing Teachers in Model Distillation¶

会议: ACL 2025
arXiv: 2502.06659
代码: 无
领域: 模型压缩

一句话总结¶

提出"教师模型归因"新问题：给定蒸馏后的学生模型，能否识别其教师模型？发现 n-gram 相似度和困惑度都不可靠，但词性（PoS）模板特征能有效捕捉教师模型在蒸馏中留下的语法"指纹"，在 5 个候选教师中达到 45-74% 的归因准确率（随机基线 20%）。

背景与动机¶

模型蒸馏的合规性问题：创业公司可能蒸馏 GPT-4 等闭源大模型的特定能力部署为付费服务，违反使用条款，LLM 提供商需要识别此类行为。
蒸馏留下"指纹"的科学问题：教师 LLM 是否在学生模型中留下可辨识的痕迹？这是一个有趣的学术问题。
朴素方法失效：直觉上可以用输出相似度或教师困惑度来匹配，但实验证明这些方法几乎等同于随机猜测（AUC ≈ 0.52）。

方法详解¶

问题设定¶

学生模型 \(m\)：GPT-2 或 OLMo-1B
候选教师集 \(\mathcal{M}\)：{LLaMA3-8B, LLaMA3-70B, Mistral-7B, Mixtral, Gemma2-9B}
任务：摘要（CNN-DailyMail, PubMed, Rotten Tomatoes）、问答（OBQA, CSQA, QuaRel）、指令遵循（Alpaca 10K）
目标：仅通过学生模型的输出判断其教师，不访问蒸馏数据或教师内部

尝试的方法¶

1. 困惑度方法：计算学生输出在各候选教师下的困惑度，期望真正教师的困惑度最低→失败，困惑度不是可靠指标（如 Gemma 对自己学生的输出反而给出高困惑度）。

2. 相似度方法：计算学生与各教师输出的 BoW 余弦相似度 / BERTScore→失败，AUC ≈ 0.52。

3. PoS 模板方法（有效）： - 用 diversity 包提取所有教师输出中最常见的 50 个长度为 4 的 PoS（词性标注）模板 - 对每个文本构建 PoS 模板出现频率的特征向量 - 训练简单的 Logistic Regression 分类器，以教师身份为标签 - 在学生模型的输出上测试——学生继承了教师偏好的句法结构

核心发现¶

LLM 偏好特定的句法构造（PoS 模式），这种偏好通过蒸馏传递给学生模型，形成可辨识的"语法指纹"。

实验结果¶

表2：归因准确率（5 类分类，随机基线 0.20）¶

特征 / 学生	CNN-DM	PubMed	Rotten-T	CSQA	OBQA	QuaRel	Alpaca
GPT-2
BERT 嵌入	0.46	0.55	0.40	0.44	0.38	0.35	0.51
n-gram (1-4)	0.58	0.68	0.44	0.56	0.48	0.50	0.56
PoS 模板	0.60	0.71	0.54	0.69	0.51	0.59	0.55
OLMo-1B
BERT 嵌入	0.45	0.65	0.41	0.40	0.42	0.31	0.46
n-gram (1-4)	0.60	0.62	0.48	0.55	0.42	0.58	0.50
PoS 模板	0.61	0.74	0.45	0.59	0.43	0.61	0.53

PoS 模板在大多数数据集上优于 n-gram 和 BERT 特征。最高 74%（PubMed + OLMo-1B）。

亮点¶

新颖问题定义：首次系统化提出"教师模型归因"问题，有实际合规价值
反直觉发现：困惑度和文本相似度对教师归因几乎无用，打破了朴素假设
PoS 模板作为语法指纹：简单的词性序列模式能捕捉蒸馏传递的句法偏好，这一洞察有启发性
轻量级方法：仅需 Logistic Regression + PoS 特征，无需访问教师模型内部

局限性¶

准确率仍有提升空间：最好 74%、平均 ~55%，实际应用中可能不够可靠
假设有限候选集：需要预先知道候选教师模型列表（5 个），开放世界场景更困难
未考虑抗干扰：额外微调、数据增强、多教师蒸馏等可能模糊归因信号
仅测试小学生模型：GPT-2 和 OLMo-1B，更大的学生模型是否也保留语法指纹未知
分类归属存疑：更偏向 NLP 分析/AI 安全方向而非模型压缩

评分¶

⭐⭐⭐⭐ 新颖性：问题定义新颖且有实际意义，PoS 模板作为语法指纹的发现有启发性
⭐⭐⭐ 实用性：当前准确率不够实用，但为后续研究开辟了方向
⭐⭐⭐ 实验充分度：7 个数据集 2 个学生 5 个教师覆盖面广，但缺少更大学生模型和对抗场景
⭐⭐⭐⭐ 写作质量：问题动机清晰，实验递进（困惑度→相似度→PoS），论述逻辑好

维度	本文	Li et al. 2024（统计检验）	水印方法
是否需要训练数据	不需要	不需要	需要（水印嵌入）
是否访问教师内部	不需要	不需要概率	需要生成时嵌入
方法	PoS 模板分类	统计测试	水印检测
优势	纯黑盒，无需协作	无需特征工程	高准确率
劣势	准确率有限	需要教师样本对比	需要事前部署