Robust Utility-Preserving Text Anonymization Based on Large Language Models¶
会议: ACL 2025
arXiv: 2407.11770
代码: https://github.com/UKPLab/acl2025-rupta
领域: LLM效率
关键词: 文本匿名化, 隐私保护, LLM重识别, 多目标优化, 知识蒸馏
一句话总结¶
提出RUPTA框架,通过隐私评估器、效用评估器和优化器三个LLM组件协同工作,迭代编辑文本以实现防御LLM重识别攻击的同时保留下游任务效用,并通过DPO蒸馏将匿名化能力迁移到轻量模型。
研究背景与动机¶
- 领域现状:文本匿名化是隐私保护的关键技术,传统方法主要通过NER识别和掩码预定义类型的敏感实体(如姓名、电话号码)
- 现有痛点:LLM具有强大的记忆和推理能力,即使是经过先进方法匿名化的文本,LLM也能以极高准确率重新识别出个人信息(re-identification)
- 核心矛盾:为防御LLM重识别攻击而进行的匿名化操作,往往会严重损害匿名化文本在下游任务中的效用。现有方法如AF(Adversarial Feedback)虽能有效降低重识别风险,但会消除对下游任务至关重要的信息
- 切入角度:将匿名化建模为字典序多目标优化问题(Lexicographic Optimization),隐私优先、效用次之。利用LLM自身能力构建评估器和优化器,形成闭环反馈
- 核心idea:构建隐私评估器(模拟攻击者)和效用评估器(模拟下游任务),让LLM优化器根据双重反馈迭代精炼匿名化文本
方法详解¶
整体框架¶
RUPTA框架包含三个基于LLM的核心组件,形成迭代优化循环: 1. 输入文本 \(\mathbf{x}_t\) 经P-Evaluator评估隐私保护水平 2. 同时经U-Evaluator评估下游任务效用 3. 优化器根据两个评估器的反馈生成更优的匿名化文本 \(\mathbf{x}_{t+1}\) 4. 重复直到满足预设条件或达到最大迭代次数
关键设计¶
-
P-Evaluator(隐私评估器):
- 本质是一个模拟攻击者的LLM,接收匿名化文本后尝试推断个人信息
- 生成Top-K推断结果 \([y'_i]_1^K\),与真实个人信息 \(y\) 比对
- 如果匹配成功,隐私分数 \(p_t\) 为匹配排名;否则为 \(K+1\)(最大安全分)
- 额外生成文本反馈 \(\mathbf{f}_t\),详细解释推断依据的线索,指导优化器进一步匿名化
- \(K\) 值可调,越大隐私保护越严格→可定制隐私级别
-
U-Evaluator(效用评估器):
- 评估匿名化文本对下游任务(如职业分类)的支持程度
- 输出置信度分数 \(u_t\),反映关键效用信息的保留程度
- 灵活设计:可用LLM实例化,也可用实际下游模型(如情感分析模型的logit)
-
字典序优化器(LO Optimizer):
- 采用字典序优化策略,隐私目标严格优先于效用目标
- 双模式运行:
- 隐私未达标时:LLM接收隐私反馈 \(\mathbf{f}_t\),专注提升隐私保护
- 隐私已达标时:切换到效用优化指令,在不降低隐私的前提下提升效用
- 内置记忆模块 \(\mathcal{M}\),存储历史优化结果及其双目标值
-
知识蒸馏(DPO):
- 将GPT-4的匿名化能力蒸馏到Llama-3-8b和Phi-3 Mini等小模型
- 创新点:利用优化过程中的中间结果作为负样本,最终结果作为正样本,构建偏好数据集
- 通过DPO训练小模型偏好生成类似最终优化结果的输出
损失函数 / 训练策略¶
- 字典序优化目标:\(\text{lex max } F(\mathbf{x}) = [f_p(\mathbf{x}), f_u(\mathbf{x})]\)
- 蒸馏阶段:SFT + DPO两阶段训练,SFT用最终优化结果做标签,DPO用中间结果vs最终结果构建偏好对
实验关键数据¶
主实验¶
| 数据集 | 指标 | RUPTA (GPT-4) | AF (SOTA) | 提升 |
|---|---|---|---|---|
| DB-bio | SR↓ | 52.67 | 52.91 | 相当 |
| DB-bio | F1↑ | 95.91 | 91.75 | +4.16 |
| DB-bio | Accuracy↑ | 96.02 | 92.02 | +4.00 |
| DB-bio | Loss↓ | 0.1618 | 0.4048 | -60% |
| PR | SR↓ | 35.75 | 35.40 | 相当 |
| PR | Accuracy↑ | 35.75 | 21.26 | +14.49 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| RUPTA不同LLM backbone | SR/F1 | Mixtral、Llama-3-70b、GPT-3.5/4均表现良好,开源LLM隐私性能可比闭源 |
| 可调K值 (1,5,10,15,20) | SR/Accuracy | 随K增大,隐私保护增强,效用有序调整 |
| DPO蒸馏 | SR/Accuracy | SFT后隐私接近教师模型,DPO进一步缩小差距 |
关键发现¶
- AF和IncogniText等方法虽然降低了重识别风险,但严重损害下游任务效用(IncogniText在PR上Accuracy仅13.47%)
- DEID-GPT和SD等基于实体掩码的方法无法有效防御LLM重识别攻击
- RUPTA在优化过程中存在明显的效用提升阶段,验证了双目标迭代优化的有效性
- 人工评估显示RUPTA的语义保留(3.96/5)优于所有基线
亮点与洞察¶
- 将隐私-效用权衡建模为字典序优化问题,设计优雅且直观
- P-Evaluator不仅给出标量分数,还生成文本反馈指导优化方向,这是prompting优化的关键设计
- 利用优化过程中间产物构建DPO偏好数据,巧妙利用了迭代优化的副产品
- 创建了DB-bio数据集,填补了匿名化研究中缺乏下游任务标签的空白
局限与展望¶
- 基于LLM的迭代匿名化计算开销大(即使蒸馏后仍有限制)
- DB-bio数据集主要来自名人传记,可能无法代表所有文本匿名化场景
- 假设静态对抗模型(攻击者能力不变),实际中攻击者可能进化
- NLP匿名化方法缺乏形式化隐私保证,仅提供实验性保证
- 可探索方向:将框架扩展到多模态数据匿名化(如图文联合匿名化);引入动态对抗训练使攻击者和防御者共同进化
相关工作与启发¶
- AF (Staab et al., 2024b) 开创了利用LLM对抗反馈进行匿名化的思路,RUPTA在此基础上引入效用评估
- IncogniText引入合成信息来误导攻击者,但反而最严重地损害了效用
- DPO在偏好对齐领域的成功启发了本文的蒸馏策略
- 隐私-效用的权衡问题与差分隐私中的隐私预算概念相呼应
评分¶
- 新颖性: ⭐⭐⭐⭐ 将匿名化建模为LO问题并引入效用评估器是明确的创新,但整体框架仍是"LLM迭代优化"范式
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种LLM backbone、蒸馏实验、人工评估、可视化分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,形式化定义严谨,图示直观
- 价值: ⭐⭐⭐⭐ 首次系统性研究LLM语境下匿名化与下游效用的关系,实用性强
相关论文¶
- [ACL 2025] GradOT: Training-free Gradient-preserving Offsite-tuning for Large Language Models
- [ACL 2025] LongSafety: Evaluating Long-Context Safety of Large Language Models
- [ACL 2025] A Drop-In Solution for On-the-Fly Adaptation of Speculative Decoding in Large Language Models
- [ACL 2025] CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- [ACL 2025] Dynamic Chunking and Selection for Reading Comprehension of Ultra-Long Context in Large Language Models