跳转至

Unlocking Post-hoc Dataset Inference with Synthetic Data

会议: ICML2025
arXiv: 2506.15271
代码: GitHub
领域: LLM/NLP
关键词: dataset inference, membership inference, synthetic data, copyright protection, LLM, post-hoc calibration, data ownership

一句话总结

提出通过合成生成held-out数据集并结合后校准(post-hoc calibration)来实现无需真实held-out集的数据集推断(Dataset Inference),通过suffix completion生成高质量合成数据、双分类器校准解耦生成偏移与成员信号,在15个多样化文本数据集上实现高置信度版权检测且低误报率。

研究背景与动机

问题场景

大语言模型(LLMs)的训练数据通常从互联网大规模爬取,可能侵犯数据所有者的知识产权。数据集推断(Dataset Inference, DI) 旨在判断某嫌疑数据集是否被用于训练某模型,使数据所有者能验证未授权使用。

现有 DI 的核心瓶颈

DI 需要一个held-out集——已知未参与训练的数据集,且必须与嫌疑数据集同分布。但实际中:

  1. 数据创建者通常不会为法律目的预留held-out集
  2. 任何公开的held-out数据可能被后续训练使用
  3. 即使是同一作者的不同文章,也存在微妙的分布偏移

关键发现:DI 的假阳性问题

论文首先通过实验揭示了一个严重问题:即使在最简单的设定下(单一作者的博客文章,随机拆分为训练/held-out),DI也会产生假阳性

每篇博客序列数 5 10 15 20 25
GPT2 AUC (%) 52.0 55.2 53.2 58.2 58.6
DI p-value 0.002 <0.001 <0.001 <0.001 <0.001
真实成员关系
推断结果

非成员集也被错误判定为成员!原因在于不同博客文章之间的内容/主题差异引入了分布偏移,而这种偏移与MIA(成员推断攻击)中的成员信号纠缠不清

方法详解

整体流程

方法分两大步骤:(1) 合成生成高质量held-out数据;(2) 后校准解耦分布偏移与成员信号。

Step 1:Held-out 数据生成

论文系统比较了四种生成方案:

方法 BoW AUC (%) GPT2 AUC (%) 评价
ICL Paraphrasing(GPT-4改写) 76.2 99.0 分布偏移极大,GPT-4生成模式明显
ICL Text Completion(GPT-4续写) 79.2 99.2 同上
Preference Optimization(偏好优化) 50.2 58.9 BoW层面接近随机,但transformer仍可区分
Suffix Completion(后缀补全) 50.0 52.2 最小分布偏移

Suffix Completion 流程

  1. 将文档切割为短序列(≤64 tokens),打乱后拆分为生成器训练集和推理集
  2. 使用 LoRA 微调 Llama 3 8B 作为生成器,训练目标为 next-token prediction
  3. 推理时:将每个序列截断为前缀+后缀,生成器基于前缀生成合成后缀
  4. 原始后缀 → 嫌疑集,合成后缀 → held-out集

关键设计: - Segment and Shuffle:在序列层面而非文档层面拆分,确保训练/推理集同分布 - 共享前缀:原始后缀和合成后缀共享同一前缀,确保位置和语境对齐 - 短序列限制(≤64 tokens):短序列下生成器能产生更高质量的补全

Step 2:Post-hoc Calibration(后校准)

即使suffix completion产生的分布偏移很小(GPT2 AUC仅52.2%),直接使用DI仍会产生假阳性。核心洞察:生成偏移发生在文本空间,而成员信号存在于目标LLM的输出空间,两者可以解耦

双分类器设计

  1. 文本分类器 \(c_{\text{text}}(x)\):仅基于文本特征区分原始/合成数据,量化生成偏移
  2. 组合分类器 \(c_{\text{comb}}(x, \text{MIA}(f(x)))\):同时使用文本特征和MIA信号,量化生成偏移+成员信号

差异比较 t-test

如果成员信号存在,组合分类器应比文本分类器表现更好(因为额外的MIA输入提供了信息):

\[c_{\text{comb}}(x_{\text{val}}) - c_{\text{comb}}(x_{\text{sus}}) > c_{\text{text}}(x_{\text{val}}) - c_{\text{text}}(x_{\text{sus}})\]

零假设 \(\mathcal{H}_0\)

\[\mathbb{E}[c_{\text{comb}}(x_{\text{val}}) - c_{\text{comb}}(x_{\text{sus}})] \leq \mathbb{E}[c_{\text{text}}(x_{\text{val}}) - c_{\text{text}}(x_{\text{sus}})]\]

若拒绝 \(\mathcal{H}_0\)(p < 0.05),则判定嫌疑集为训练数据成员。

Step 3:权重约束

原始DI使用 \(y_{\text{diff}} = \sum_i w_i (\mathbb{E}[\text{MIA}_i(x_{\text{val}})] - \mathbb{E}[\text{MIA}_i(x_{\text{sus}})])\) 聚合多个MIA得分。

问题:合成文本通常比人类文本更简单,导致perplexity更低。线性回归可能对这类MIA分配负权重 \(w_i < 0\),使 \(y_{\text{diff}} > 0\) 产生假阳性。

解决方案:使用 Sigmoid 函数将权重约束到 \((0, 1)\)\(w_i = \sigma(w_i')\),避免负权重放大生成偏移。

实验关键数据

单作者博客数据集

设置 真实成员 AUC_Text (%) AUC_Comb (%) p-value 推断结果
成员集 53.8 55.6 0.01
非成员集 53.8 53.9 0.13
  • 成员集:组合分类器AUC比文本分类器高1.8%,p=0.01,正确检测
  • 非成员集:两者AUC接近,p=0.13,正确判定为非成员(消除了假阳性

Pile 数据集(15个子集,Pythia 1B)

子集 成员 p-value 非成员 p-value 成员检测 非成员检测
Pile-CC 0.002 0.99
Wikipedia 0.04 1.00
ArXiv <0.001 0.74
FreeLaw <0.001 0.09
PubMed Central <0.001 0.11
Github 0.003 0.07
EuroParl <0.001 0.07
StackExchange <0.001 0.06

所有15个子集的成员集 p-value < 0.05,非成员集 p-value > 0.05,实现100%的正确检测率和0%的假阳性率。

消融实验

设置 成员 p-value 非成员 p-value 评价
ICL Paraphrasing替代 1.0 / 1.0 假阴性(生成偏移过大)
ICL Text Completion替代 1.0 / 1.0 假阴性
Preference Optimization替代 1.0 / 1.0 假阴性
去除Segment & Shuffle 1.0 / 1.0 假阴性
去除Suffix Comparison 1.0 / 1.0 假阴性
去除Post-hoc Calibration <0.001 / <0.001 假阳性(关键!)
去除Weight Constraint 0.004 / 0.43 仍可工作但边际
完整方法 <0.001 / 1.0 最优

样本规模分析

  • 少于1000个样本即可在多数数据集上达到 p < 0.05
  • 2000个样本时所有数据集均达到 p < 0.01

亮点与洞察

  1. 首次用合成数据替代真实held-out集:解决了DI最核心的实战瓶颈——数据所有者通常无法提供同分布的held-out数据
  2. Suffix Completion设计精巧:通过共享前缀、短序列、段级shuffle三重设计,将分布偏移降至GPT2 AUC仅52.2%(接近随机猜测)
  3. 双分类器校准思路巧妙:生成偏移在文本空间、成员信号在LLM输出空间,利用信息论的"额外信息增量"进行解耦
  4. 跨域泛化性强:在医学(PubMed)、法律(FreeLaw)、代码(Github)、多语言(EuroParl)等15个多样化领域均有效
  5. 实用性高:仅需对目标模型进行query(黑盒设定),不需要模型权重或训练细节

局限性

  1. 依赖访问目标模型logits:虽然是黑盒设定,但需要获取token级别概率(用于计算perplexity等MIA指标),部分API不提供此功能
  2. 生成器训练需要嫌疑数据集:需要对嫌疑数据集训练LoRA生成器,这本身需要一定计算资源
  3. 仅在fine-tuned模型上验证:实验使用Pythia fine-tuning 1 epoch场景,未在从头预训练的大模型(如GPT-4/Claude)上验证
  4. 短序列限制(≤64 tokens):可能在长文档场景(如学术论文、书籍)下丢失全局语义信息
  5. 对抗鲁棒性未讨论:如果LLM提供者故意对模型进行后处理(如differential privacy、unlearning),方法的检测能力可能下降

评分

⭐⭐⭐⭐ — 解决了DI领域一个长期存在的实际困难(held-out数据不可用),实验覆盖全面(单作者+15个Pile子集),消融研究透彻,对版权保护有重要实践意义。

相关论文