Robust Utility-Preserving Text Anonymization Based on Large Language Models¶

会议: ACL 2025
arXiv: 2407.11770
代码: https://github.com/UKPLab/acl2025-rupta
领域: LLM效率
关键词: 文本匿名化, 隐私保护, LLM重识别, 多目标优化, 知识蒸馏

一句话总结¶

提出RUPTA框架，通过隐私评估器、效用评估器和优化器三个LLM组件协同工作，迭代编辑文本以实现防御LLM重识别攻击的同时保留下游任务效用，并通过DPO蒸馏将匿名化能力迁移到轻量模型。

研究背景与动机¶

领域现状：文本匿名化是隐私保护的关键技术，传统方法主要通过NER识别和掩码预定义类型的敏感实体（如姓名、电话号码）
现有痛点：LLM具有强大的记忆和推理能力，即使是经过先进方法匿名化的文本，LLM也能以极高准确率重新识别出个人信息（re-identification）
核心矛盾：为防御LLM重识别攻击而进行的匿名化操作，往往会严重损害匿名化文本在下游任务中的效用。现有方法如AF（Adversarial Feedback）虽能有效降低重识别风险，但会消除对下游任务至关重要的信息
切入角度：将匿名化建模为字典序多目标优化问题（Lexicographic Optimization），隐私优先、效用次之。利用LLM自身能力构建评估器和优化器，形成闭环反馈
核心idea：构建隐私评估器（模拟攻击者）和效用评估器（模拟下游任务），让LLM优化器根据双重反馈迭代精炼匿名化文本

方法详解¶

整体框架¶

RUPTA框架包含三个基于LLM的核心组件，形成迭代优化循环： 1. 输入文本 \(\mathbf{x}_t\) 经P-Evaluator评估隐私保护水平 2. 同时经U-Evaluator评估下游任务效用 3. 优化器根据两个评估器的反馈生成更优的匿名化文本 \(\mathbf{x}_{t+1}\) 4. 重复直到满足预设条件或达到最大迭代次数

关键设计¶

P-Evaluator（隐私评估器）:
- 本质是一个模拟攻击者的LLM，接收匿名化文本后尝试推断个人信息
- 生成Top-K推断结果 \([y'_i]_1^K\)，与真实个人信息 \(y\) 比对
- 如果匹配成功，隐私分数 \(p_t\) 为匹配排名；否则为 \(K+1\)（最大安全分）
- 额外生成文本反馈 \(\mathbf{f}_t\)，详细解释推断依据的线索，指导优化器进一步匿名化
- \(K\) 值可调，越大隐私保护越严格→可定制隐私级别
U-Evaluator（效用评估器）:
- 评估匿名化文本对下游任务（如职业分类）的支持程度
- 输出置信度分数 \(u_t\)，反映关键效用信息的保留程度
- 灵活设计：可用LLM实例化，也可用实际下游模型（如情感分析模型的logit）
字典序优化器（LO Optimizer）:
- 采用字典序优化策略，隐私目标严格优先于效用目标
- 双模式运行：
  - 隐私未达标时：LLM接收隐私反馈 \(\mathbf{f}_t\)，专注提升隐私保护
  - 隐私已达标时：切换到效用优化指令，在不降低隐私的前提下提升效用
- 内置记忆模块 \(\mathcal{M}\)，存储历史优化结果及其双目标值
知识蒸馏（DPO）:
- 将GPT-4的匿名化能力蒸馏到Llama-3-8b和Phi-3 Mini等小模型
- 创新点：利用优化过程中的中间结果作为负样本，最终结果作为正样本，构建偏好数据集
- 通过DPO训练小模型偏好生成类似最终优化结果的输出

损失函数 / 训练策略¶

字典序优化目标：\(\text{lex max } F(\mathbf{x}) = [f_p(\mathbf{x}), f_u(\mathbf{x})]\)
蒸馏阶段：SFT + DPO两阶段训练，SFT用最终优化结果做标签，DPO用中间结果vs最终结果构建偏好对

实验关键数据¶

主实验¶

数据集	指标	RUPTA (GPT-4)	AF (SOTA)	提升
DB-bio	SR↓	52.67	52.91	相当
DB-bio	F1↑	95.91	91.75	+4.16
DB-bio	Accuracy↑	96.02	92.02	+4.00
DB-bio	Loss↓	0.1618	0.4048	-60%
PR	SR↓	35.75	35.40	相当
PR	Accuracy↑	35.75	21.26	+14.49

消融实验¶

配置	关键指标	说明
RUPTA不同LLM backbone	SR/F1	Mixtral、Llama-3-70b、GPT-3.5/4均表现良好，开源LLM隐私性能可比闭源
可调K值 (1,5,10,15,20)	SR/Accuracy	随K增大，隐私保护增强，效用有序调整
DPO蒸馏	SR/Accuracy	SFT后隐私接近教师模型，DPO进一步缩小差距

关键发现¶

AF和IncogniText等方法虽然降低了重识别风险，但严重损害下游任务效用（IncogniText在PR上Accuracy仅13.47%）
DEID-GPT和SD等基于实体掩码的方法无法有效防御LLM重识别攻击
RUPTA在优化过程中存在明显的效用提升阶段，验证了双目标迭代优化的有效性
人工评估显示RUPTA的语义保留（3.96/5）优于所有基线

亮点与洞察¶

将隐私-效用权衡建模为字典序优化问题，设计优雅且直观
P-Evaluator不仅给出标量分数，还生成文本反馈指导优化方向，这是prompting优化的关键设计
利用优化过程中间产物构建DPO偏好数据，巧妙利用了迭代优化的副产品
创建了DB-bio数据集，填补了匿名化研究中缺乏下游任务标签的空白

局限与展望¶

基于LLM的迭代匿名化计算开销大（即使蒸馏后仍有限制）
DB-bio数据集主要来自名人传记，可能无法代表所有文本匿名化场景
假设静态对抗模型（攻击者能力不变），实际中攻击者可能进化
NLP匿名化方法缺乏形式化隐私保证，仅提供实验性保证
可探索方向：将框架扩展到多模态数据匿名化（如图文联合匿名化）；引入动态对抗训练使攻击者和防御者共同进化

评分¶

新颖性: ⭐⭐⭐⭐ 将匿名化建模为LO问题并引入效用评估器是明确的创新，但整体框架仍是"LLM迭代优化"范式
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种LLM backbone、蒸馏实验、人工评估、可视化分析，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，形式化定义严谨，图示直观
价值: ⭐⭐⭐⭐ 首次系统性研究LLM语境下匿名化与下游效用的关系，实用性强