Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization¶

会议: ACL 2026
arXiv: 2602.20743
代码: https://github.com/gabrielloiseau/adaptive-text-anonymization
领域: AI Safety
关键词: 文本匿名化, 隐私保护, 提示优化, 进化算法, 隐私-效用权衡

一句话总结¶

提出自适应文本匿名化框架，通过进化式提示优化自动为LLM发现任务特定的匿名化指令，在多个隐私-效用权衡场景中超越手工设计的策略，且可在开源模型上运行。

研究背景与动机¶

领域现状：文本匿名化是实现敏感数据共享和分析的基础技术。目前的方法主要分为传统的序列标注（检测并掩码PII实体）和基于LLM的对抗协作管线（如AF方法中使用攻击者LLM引导匿名化决策）。

现有痛点：现有LLM匿名化管线存在三大限制：（1）固定权衡范式——每个场景手动设计一个策略，无法灵活适应新需求；（2）依赖人工提示工程，主观、费力且效果欠佳；（3）大多依赖闭源API模型（如GPT-4/5），处理敏感数据通过外部API本身就与隐私目标矛盾。

核心矛盾：匿名化本质上是高度上下文依赖的——医疗报告和社交评论的匿名化策略截然不同，不存在"一刀切"的方案，但现有方法无法自适应地调整策略。

本文目标：设计一个自适应框架，能够（1）自动发现针对特定隐私-效用需求的匿名化提示，（2）在开源模型上运行，（3）在单次优化中发现多个Pareto最优策略。

切入角度：将匿名化问题重新定义为"字符串发现"问题——不修改模型参数，而是搜索最优的自然语言指令来引导模型行为。

核心 idea：利用进化式提示优化算法（GEPA）自动搜索匿名化提示空间，从一个通用种子提示出发进化出任务适应的指令，实现自适应的隐私-效用权衡。

方法详解¶

整体框架¶

输入为待匿名化文本和隐私-效用任务规格 \((p, u)\)，输出为匿名化后的文本。框架通过进化提示优化在固定计算预算内搜索最佳匿名化指令 \(\Pi^*\)，整个过程分为三个阶段：初始化、基础反馈热启动、丰富反馈精炼。

关键设计¶

两阶段GEPA进化优化:
- 功能：从通用种子提示出发，通过进化搜索发现任务特定的匿名化指令
- 核心思路：维护一个提示池 \(P\)，每轮迭代中通过Pareto排序选择高性能且多样的提示，proposer agent分析执行轨迹和反馈后提出变异，新候选在验证集上评估后通过Pareto剪枝纳入池中。Stage 2使用简单的标量聚合反馈 \(\mu\)，当性能停滞时进入Stage 3
- 设计动机：进化搜索天然支持多目标优化（隐私vs效用），能在单次运行中发现多个Pareto最优解，而非收敛到单一固定权衡点
丰富反馈生成机制:
- 功能：将粗粒度标量反馈升级为包含自然语言解释的结构化反馈
- 核心思路：由专门的rich feedback agent（独立LLM）将聚合指标 \(\mu\) 分解为 \(\mu_{rich}\)，为proposer提供可解释的、结构化的改进信号，使其能做出更大幅度的定向行为更新
- 设计动机：标量反馈过于粗糙，proposer难以理解"哪里不好、如何改进"。丰富反馈使得在剩余预算内用更少的评估实现更精准的提示优化
自适应验证采样:
- 功能：在精炼阶段使用采样子集评估候选提示以节省计算预算
- 核心思路：采用轮询策略优先选择被评估次数少的样本作为 \(D'_{valid} \subset D_{valid}\)（采样比例 \(\alpha=0.3\)），最终选择时使用完整验证集确保公平
- 设计动机：每次在全验证集上评估消耗大量预算，采样可在保持覆盖多样性的同时提高预算利用效率

损失函数 / 训练策略¶

不涉及梯度训练。优化目标是隐私得分和效用得分的聚合（如平均值），通过Pareto选择实现多目标权衡。进化预算 \(B=1500\) 次LLM前向传播，早停耐心 \(n=5\)。

实验关键数据¶

主实验¶

基准	方法	隐私↑	效用↑
DB-Bio	Optimized Qwen3	65.5	100
DB-Bio	AF (GPT-5)	78.0	92.1
TAB	Optimized Qwen3	92.3	56.2
TAB	AF (GPT-5)	59.9	42.5
PUPA	Optimized Qwen3	98.0	79.3
PUPA	AF (GPT-5)	94.2	46.0
MedQA	Optimized Qwen3	24.6	45.9
MedQA	AF (GPT-5)	24.4	45.8

消融实验¶

配置	隐私-效用表现	说明
Seed Prompt	基线	通用种子提示，无优化
Task-Specific Prompt	中等	人工设计的任务特定提示
Optimized Prompt	最优	自动优化后的提示
OpenPII (实体检测)	高效用低隐私	仅检测PII实体，隐私保护不足
DP-Prompt (\(\epsilon=100\))	高隐私低效用	差分隐私噪声严重破坏效用

关键发现¶

优化后的开源Qwen3-30B在多数任务上与GPT-5基线竞争力相当甚至更优，尤其在效用保持方面
不同模型表现出不同的优化特征：Mistral倾向激进隐私提升（可能牺牲效用），Gemma保守改进，Qwen最鲁棒
单次优化运行可发现多个Pareto最优策略，覆盖隐私优先到效用优先的完整频谱

亮点与洞察¶

将匿名化问题转化为"字符串搜索"问题是一个巧妙的抽象，每个Pareto解只是一个自然语言字符串，存储和部署成本极低
进化优化天然支持多目标发现，单次运行就能找到多个不同权衡点，这比传统方法每个权衡点需要单独设计策略高效得多
丰富反馈机制的思路——将标量指标分解为结构化自然语言解释——可迁移到任何需要LLM自我改进的场景

局限与展望¶

隐私和效用指标的评估仍依赖闭源LLM（如Gemini-2.5-flash），与完全本地化部署的目标存在矛盾
每个任务仍需少量标注数据（111训练+111验证），非完全零样本
未考虑推理型模型（如CoT模型）的匿名化能力，可能是互补方向

评分¶

新颖性: ⭐⭐⭐⭐ 将匿名化重新定义为提示优化问题，视角新颖
实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、3个开源模型、多个基线和消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述系统
价值: ⭐⭐⭐⭐ 对敏感数据处理场景有直接实用价值

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评