跳转至

Robust Utility-Preserving Text Anonymization Based on Large Language Models

会议: ACL 2025
arXiv: 2407.11770
代码: https://github.com/UKPLab/acl2025-rupta
领域: LLM效率
关键词: 文本匿名化, 隐私保护, LLM重识别, 多目标优化, 知识蒸馏

一句话总结

提出RUPTA框架,通过隐私评估器、效用评估器和优化器三个LLM组件协同工作,迭代编辑文本以实现防御LLM重识别攻击的同时保留下游任务效用,并通过DPO蒸馏将匿名化能力迁移到轻量模型。

研究背景与动机

  • 领域现状:文本匿名化是隐私保护的关键技术,传统方法主要通过NER识别和掩码预定义类型的敏感实体(如姓名、电话号码)
  • 现有痛点:LLM具有强大的记忆和推理能力,即使是经过先进方法匿名化的文本,LLM也能以极高准确率重新识别出个人信息(re-identification)
  • 核心矛盾:为防御LLM重识别攻击而进行的匿名化操作,往往会严重损害匿名化文本在下游任务中的效用。现有方法如AF(Adversarial Feedback)虽能有效降低重识别风险,但会消除对下游任务至关重要的信息
  • 切入角度:将匿名化建模为字典序多目标优化问题(Lexicographic Optimization),隐私优先、效用次之。利用LLM自身能力构建评估器和优化器,形成闭环反馈
  • 核心idea:构建隐私评估器(模拟攻击者)和效用评估器(模拟下游任务),让LLM优化器根据双重反馈迭代精炼匿名化文本

方法详解

整体框架

RUPTA框架包含三个基于LLM的核心组件,形成迭代优化循环: 1. 输入文本 \(\mathbf{x}_t\) 经P-Evaluator评估隐私保护水平 2. 同时经U-Evaluator评估下游任务效用 3. 优化器根据两个评估器的反馈生成更优的匿名化文本 \(\mathbf{x}_{t+1}\) 4. 重复直到满足预设条件或达到最大迭代次数

关键设计

  1. P-Evaluator(隐私评估器):

    • 本质是一个模拟攻击者的LLM,接收匿名化文本后尝试推断个人信息
    • 生成Top-K推断结果 \([y'_i]_1^K\),与真实个人信息 \(y\) 比对
    • 如果匹配成功,隐私分数 \(p_t\) 为匹配排名;否则为 \(K+1\)(最大安全分)
    • 额外生成文本反馈 \(\mathbf{f}_t\),详细解释推断依据的线索,指导优化器进一步匿名化
    • \(K\) 值可调,越大隐私保护越严格→可定制隐私级别
  2. U-Evaluator(效用评估器):

    • 评估匿名化文本对下游任务(如职业分类)的支持程度
    • 输出置信度分数 \(u_t\),反映关键效用信息的保留程度
    • 灵活设计:可用LLM实例化,也可用实际下游模型(如情感分析模型的logit)
  3. 字典序优化器(LO Optimizer):

    • 采用字典序优化策略,隐私目标严格优先于效用目标
    • 双模式运行
      • 隐私未达标时:LLM接收隐私反馈 \(\mathbf{f}_t\),专注提升隐私保护
      • 隐私已达标时:切换到效用优化指令,在不降低隐私的前提下提升效用
    • 内置记忆模块 \(\mathcal{M}\),存储历史优化结果及其双目标值
  4. 知识蒸馏(DPO):

    • 将GPT-4的匿名化能力蒸馏到Llama-3-8b和Phi-3 Mini等小模型
    • 创新点:利用优化过程中的中间结果作为负样本,最终结果作为正样本,构建偏好数据集
    • 通过DPO训练小模型偏好生成类似最终优化结果的输出

损失函数 / 训练策略

  • 字典序优化目标:\(\text{lex max } F(\mathbf{x}) = [f_p(\mathbf{x}), f_u(\mathbf{x})]\)
  • 蒸馏阶段:SFT + DPO两阶段训练,SFT用最终优化结果做标签,DPO用中间结果vs最终结果构建偏好对

实验关键数据

主实验

数据集 指标 RUPTA (GPT-4) AF (SOTA) 提升
DB-bio SR↓ 52.67 52.91 相当
DB-bio F1↑ 95.91 91.75 +4.16
DB-bio Accuracy↑ 96.02 92.02 +4.00
DB-bio Loss↓ 0.1618 0.4048 -60%
PR SR↓ 35.75 35.40 相当
PR Accuracy↑ 35.75 21.26 +14.49

消融实验

配置 关键指标 说明
RUPTA不同LLM backbone SR/F1 Mixtral、Llama-3-70b、GPT-3.5/4均表现良好,开源LLM隐私性能可比闭源
可调K值 (1,5,10,15,20) SR/Accuracy 随K增大,隐私保护增强,效用有序调整
DPO蒸馏 SR/Accuracy SFT后隐私接近教师模型,DPO进一步缩小差距

关键发现

  • AF和IncogniText等方法虽然降低了重识别风险,但严重损害下游任务效用(IncogniText在PR上Accuracy仅13.47%)
  • DEID-GPT和SD等基于实体掩码的方法无法有效防御LLM重识别攻击
  • RUPTA在优化过程中存在明显的效用提升阶段,验证了双目标迭代优化的有效性
  • 人工评估显示RUPTA的语义保留(3.96/5)优于所有基线

亮点与洞察

  • 将隐私-效用权衡建模为字典序优化问题,设计优雅且直观
  • P-Evaluator不仅给出标量分数,还生成文本反馈指导优化方向,这是prompting优化的关键设计
  • 利用优化过程中间产物构建DPO偏好数据,巧妙利用了迭代优化的副产品
  • 创建了DB-bio数据集,填补了匿名化研究中缺乏下游任务标签的空白

局限与展望

  • 基于LLM的迭代匿名化计算开销大(即使蒸馏后仍有限制)
  • DB-bio数据集主要来自名人传记,可能无法代表所有文本匿名化场景
  • 假设静态对抗模型(攻击者能力不变),实际中攻击者可能进化
  • NLP匿名化方法缺乏形式化隐私保证,仅提供实验性保证
  • 可探索方向:将框架扩展到多模态数据匿名化(如图文联合匿名化);引入动态对抗训练使攻击者和防御者共同进化

相关工作与启发

  • AF (Staab et al., 2024b) 开创了利用LLM对抗反馈进行匿名化的思路,RUPTA在此基础上引入效用评估
  • IncogniText引入合成信息来误导攻击者,但反而最严重地损害了效用
  • DPO在偏好对齐领域的成功启发了本文的蒸馏策略
  • 隐私-效用的权衡问题与差分隐私中的隐私预算概念相呼应

评分

  • 新颖性: ⭐⭐⭐⭐ 将匿名化建模为LO问题并引入效用评估器是明确的创新,但整体框架仍是"LLM迭代优化"范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、多种LLM backbone、蒸馏实验、人工评估、可视化分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,形式化定义严谨,图示直观
  • 价值: ⭐⭐⭐⭐ 首次系统性研究LLM语境下匿名化与下游效用的关系,实用性强

相关论文