Self-Refining Language Model Anonymizers via Adversarial Distillation¶

会议: NeurIPS 2025
arXiv: 2506.01420
代码: GitHub
领域: AI安全
关键词: 隐私保护, 文本匿名化, 知识蒸馏, 对抗学习, 自我精炼

一句话总结¶

提出 SEAL 框架，通过对抗蒸馏将 GPT-4 级 LLM 的文本匿名化能力蒸馏到 8B 小模型中，结合 SFT + DPO 训练和自我精炼机制，使小模型在隐私-效用权衡上达到甚至超越 GPT-4 匿名化器的水平，且可完全本地部署。

研究背景与动机¶

大语言模型在敏感领域（医疗、金融、对话系统）中被广泛使用，但其从看似无害的文本中推断个人隐私信息的能力带来了严重的新兴隐私风险。LLM 能从用户发言中推断出位置、身份、人口学特征等敏感属性，且准确率出人意料地高，用户往往对此毫无察觉。

传统匿名化方法（如命名实体识别、模式匹配）只能处理表层标识符（姓名、身份证号等），无法应对 LLM 利用语义上下文进行的推断。例如 "Debugging life like it's faulty code!" 这句话不包含任何 PII，但 LLM 能推断出作者可能是软件开发者。

近期基于 LLM 的匿名化框架（如对抗匿名化）取得了进展，但存在两大问题：

依赖商业大模型（如 GPT-4），成本高昂

数据安全风险：需将敏感文本发送到不受信任的外部系统

已有的蒸馏尝试仍依赖 GPT-4 提供对抗反馈，未能根本解决问题。

方法详解¶

整体框架¶

SEAL（Self-refining Anonymization with Language model）是一个三阶段框架：(1) 利用 LLM 生成对抗匿名化轨迹；(2) 通过 SFT 和 DPO 蒸馏到小模型；(3) 推理时小模型自我精炼。核心创新是将匿名化能力和评判能力（隐私推断 + 效用评估）同时蒸馏到单一小模型中，实现不依赖外部反馈的自我改进。

关键设计¶

对抗数据合成：
- 使用三个 LLM 角色：匿名化器 \(\mathcal{M}_{\text{anon}}\)、推断模型 \(\mathcal{M}_{\text{priv}}\)、效用评估器 \(\mathcal{M}_{\text{util}}\)
- 迭代流程：推断模型从当前文本 \(x_t\) 中推断可恢复属性 \(\mathcal{P}_t\) → 匿名化器据此精炼文本 \(x_{t+1}\) → 效用评估器评估 \(\mathcal{U}_{t+1}\)
- 每个文本产生一条轨迹 \(\tau = (s_0, s_1, \ldots, s_T)\)，每步包含 \((x_i, \mathcal{P}_i, \mathcal{U}_i)\)
- 使用 GPT-4o 运行 275 个合成人物档案、每个最多 3 步迭代
- 设计动机：合成档案上生成数据，蒸馏后的小模型可直接在真实内部数据上本地运行
多任务 SFT 训练：
- 联合训练三个任务：
  - 匿名化任务：从轨迹中提取所有隐私和效用同时改善的文本对 \(\mathcal{D}_{\text{anon}} = \{(x_i, x_j) \mid p(s_j) > p(s_i), u(s_j) \geq u(s_i)\}\)
  - 隐私推断任务：\(\mathcal{D}_{\text{priv}} = \{(x_i, \mathcal{P}_i)\}\)，训练模型识别可推断属性
  - 效用评估任务：\(\mathcal{D}_{\text{util}} = \{(x_i, \mathcal{U}_i)\}\)，训练模型评估匿名化质量
- 隐私评分函数：\(p(s_i) = (-|\mathcal{P}_i|, -\sum_{m \in \mathcal{P}_i} \text{conf}(m)/|\mathcal{P}_i|)\)，综合考虑可推断属性数量和推断置信度
- 总损失：\(\mathcal{L}_{\text{SFT}} = \lambda_{\text{anon}} \cdot \mathcal{L}_{\text{anon}} + \lambda_{\text{priv}} \cdot \mathcal{L}_{\text{priv}} + \lambda_{\text{util}} \cdot \mathcal{L}_{\text{util}}\)
- 设计动机：让模型同时学会"做"（匿名化）和"评"（推断+评估），为自我精炼奠定基础
DPO 偏好学习：
- 构造偏好对：同一轨迹中隐私更好且效用不低的匿名化为偏好输出
- \(\mathcal{D}_{\text{pref}} = \{(x_i, x_w, x_l) \mid p(s_w) > p(s_l), u(s_w) \geq u(s_l)\}\)
- 最小化 DPO 损失：\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log\sigma\left(\beta\log\frac{\pi_\theta(x_w|x_i)}{\pi_{\text{ref}}(x_w|x_i)} - \beta\log\frac{\pi_\theta(x_l|x_i)}{\pi_{\text{ref}}(x_l|x_i)}\right)\right]\)
- 设计动机：SFT 让模型学会生成多种匿名化但不知道哪种更好，DPO 教会模型偏好更强的隐私-效用权衡
推理时自我精炼：
- 模型交替执行：推断属性 \(\mathcal{P}_t^\pi\) → 评估效用 \(\mathcal{U}_t^\pi\) → 条件生成更好的匿名化 \(x_{t+1} \sim \pi(\cdot | x_t, \mathcal{P}_t^\pi, \mathcal{U}_t^\pi)\)
- 无需外部模型反馈，单一模型完成整个循环
- 即使训练只用了 3 步轨迹，模型能泛化到更多迭代步

损失函数 / 训练策略¶

第一阶段：多任务 SFT（匿名化 + 推断 + 评估），使用标准 next-token prediction 损失
第二阶段：DPO 偏好学习，用 SFT 模型作为参考模型
推理：迭代自我精炼，用户可根据隐私-效用偏好交互控制匿名化程度

实验关键数据¶

主实验（Main 数据集）¶

方法	隐私↓	效用↑	综合↑
原始文本	0.625	1.0	-
Azure PII	0.587	0.962	0.023
Dipper (11B)	0.555	0.868	-0.020
对抗匿名化 (GPT-4o)	0.434	0.947	0.253
SEAL (8B, iter 1)	0.391	0.931	0.305
SEAL (8B, iter 2)	0.302	0.893	0.410
SEAL (8B, iter 3)	0.263	0.862	0.441

SEAL 8B 模型在第一次迭代就超越了所有基线的隐私保护水平，综合评分显著领先。

消融实验¶

配置	隐私↓ (Main)	效用↑ (Main)	隐私↓ (Hard)
SFT only, 仅匿名化	0.513	0.963	0.672
SFT only, 匿名+评判	0.498	0.968	0.679
SFT only, +对抗反馈	0.460	0.958	0.675
SFT only, +置信度	0.458	0.952	0.671
SFT+DPO, 全部	0.379	0.931	0.614

每个组件都贡献了提升：DPO > 多任务 > 对抗反馈 > 置信度评分。

关键发现¶

8B 模型可媲美甚至超越 GPT-4o：在 Main 数据集上第一次迭代即超越，Hard 数据集上第二次迭代后超越
模型规模效应：8B 模型表现最佳，3B-4B 模型尚可但精炼提升较早饱和，1B 模型仍显著优于传统方法
跨评判一致性：GPT-4.1、Claude Sonnet 4、Gemini 2.5 Flash 三个评判模型的评估结果一致
人工评估验证：GPT-4.1 与人类在可读性（r=0.717）、语义保持（r=0.814）、幻觉检测（acc=0.775）上高度一致
Azure PII 和 Dipper 基本无效——传统方法完全无法处理上下文嵌入的隐私信息
推理延迟：仅匿名化时 8B 模型（0.94s）甚至比 GPT-4o API（1.09s）更快

亮点与洞察¶

关键洞察："自我评判"能力是自我精炼的前提——让模型同时学会匿名化和评估，才能在推理时形成改进闭环
蒸馏策略精妙：在合成数据上训练，在真实数据上本地部署，从根本上避免了敏感数据向外传输
DPO 的作用超越 SFT：虽然 SFT 已能生成多样匿名化，但 DPO 教会了模型"哪种更好"的判断力
用 3 步训练轨迹就能泛化到 5 步甚至更多的自我精炼，说明模型学到了通用的隐私保护策略而非死记硬背

局限与展望¶

在上下文嵌入式隐私信息较多的 Hard 数据集上，需要更多精炼迭代才能达到满意效果
精炼迭代增多时效用损失逐渐累积（iter 3 效用降至 0.862）
自我精炼的稳定性和收敛性缺乏理论保证
可探索方向：将评判能力用作生成式奖励模型，实现基于训练的自我改进

评分¶

新颖性: ⭐⭐⭐⭐ 对抗蒸馏+自我精炼范式新颖，"生成+评判"联合蒸馏思路清晰
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多模型规模、多评判、人工评估、延迟分析面面俱到
写作质量: ⭐⭐⭐⭐ 结构完整，算法框图清晰
价值: ⭐⭐⭐⭐⭐ 解决了LLM隐私保护中的核心实用问题，开源代码和数据