Data-Constrained Synthesis of Training Data for De-Identification¶

会议: ACL 2025
arXiv: 2502.14677
代码: 无
领域: 数据隐私 / 临床NLP / 命名实体识别
关键词: 合成数据, 去标识化, 数据约束, 领域适应, PII检测

一句话总结¶

本文系统研究了在数据受限条件下，如何利用领域适应的LLM生成合成临床文本，并通过机器标注训练NER模型进行个人身份信息（PII）检测，发现机器标注器的质量而非生成模型的规模是决定合成数据效用的关键因素。

在临床等敏感领域，由于隐私风险，广泛可用的数据集极为稀缺。传统的去标识化方法依赖人工标注PII（个人身份信息），成本高昂且耗时。自动去标识化通常依赖NER模型来检测需要移除的PII，但训练这些NER模型所需的PII数据集本身也是敏感的，形成了一个循环困境。

随着LLM生成能力的提升，利用合成数据集来解决数据稀缺问题成为可行方案。然而，以往研究主要关注合成数据的隐私评估或如何创建最强模型，很少系统地研究在资源受限条件下如何有效地生成合成数据。本文正是填补了这一空白，探索了以下核心问题：

整体流程分为四步：(1) 使用敏感的金标准语料对通用LLM进行领域适应；(2) 用适应后的LLM生成合成临床文本；(3) 使用在金标准数据上训练的NER模型对合成文本进行机器标注；(4) 用机器标注的合成语料训练新的NER模型。

生成模型的领域适应: 采用QLoRA（r=8, α=32）对GPT-SW3（瑞典语，6.7B参数）和FLOR（西班牙语，6.3B参数）进行领域微调。使用临床数据进行自回归语言建模训练，不使用指令微调，以保持方法的简洁性。使用验证集前三个词作为生成起始点。
合成文本生成: 使用vLLM库进行推理，采用nucleus sampling（p=0.95），温度设为1.0。每个起始点生成80个样本，使合成语料为原始数据的4倍大小。合成数据的优势在于其规模仅受计算资源限制。
机器标注: 使用SweDeClin-BERT（瑞典语）和roberta-base-bne（西班牙语）作为编码器模型，在金标准数据上微调后用于PII标注。文档按128词分块处理以适应模型上下文窗口。
跨语言验证: 在瑞典语（SEPR PHI，21553句）和西班牙语（MEDDOCAN，1000篇医疗文本）两种语言上验证，增强了结论的普适性。

数据比例	SEPR PHI Gold	SEPR PHI Synthetic	Δ	MEDDOCAN Gold	MEDDOCAN Synthetic	Δ
5%	0.707	0.724	-0.017	0.931	0.309	0.622
25%	0.871	0.847	0.024	0.967	0.964	0.003
50%	0.908	0.885	0.023	0.973	0.970	0.003
95%	0.926	0.896	0.029	0.978	0.973	0.005

领域适应数据量（表2）：

模型规模影响（表4）：

合成数据量影响（表5）：

领域适应存在边际递减效应：使用25%-50%的数据即可达到接近最优的领域适应效果，增加到95%几乎无提升
机器标注器质量是核心瓶颈：对比Table 2和Table 3，固定高质量标注器时合成模型性能紧跟金标准；而固定高质量域适应时，标注器质量的变化直接决定下游性能
小模型足以胜任：1.3B参数的生成模型与6.5B的效果几乎相同，尤其在MEDDOCAN上完全一致
合成数据量的边际收益有限：100%与400%的合成量差异在一个标准差以内
隐私方面：更多领域适应数据反而降低了n-gram recall（5-gram从0.328降至0.122），说明更充分的训练减少了记忆化