Subject-level Inference for Realistic Text Anonymization Evaluation¶

会议: ACL 2026
arXiv: 2604.21211
代码: https://github.com/maisonOP/spia.git
领域: NLP理解 / AI安全
关键词: 文本匿名化, 隐私评估, 主体级推断, PII推理, 多主体保护

一句话总结¶

SPIA 提出首个主体级 PII 推断评估基准（675 篇文档、1712 个主体、7040 个 PII），揭示即使 90%+ 的 PII 片段被遮蔽，主体级推断保护率可低至 33%，且聚焦单一目标主体的匿名化会导致非目标主体暴露更多。

研究背景与动机¶

领域现状：文本匿名化通过修改文本来防止个人身份识别，是 GDPR 等隐私法规的核心要求。现有评估方法以 Token Recall 和 Entity Recall 等基于片段（span）的指标为主，测量显式 PII 提及是否被遮蔽。已有基准包括 i2b2/UTHealth（医疗）、TAB（法律）、WikiPII（维基百科）等。

现有痛点：两个关键缺陷。第一，基于片段的指标无法捕获推断风险——Staab et al. (2025) 显示即使经过 NER 匿名化，66.3% 的个人属性仍可从上下文推断出来。第二，现有方法假设文档只有单一数据主体，但真实世界文本（法律判决、医疗记录、在线帖子）通常涉及多个个体。当前技术主要保护一个主要主体，其他被提及的个体保护不足。

核心矛盾：遮蔽所有显式 PII 提及（高 span recall）不等于保护所有个体（高 inference protection）。LLM 可以从上下文线索推断出被遮蔽的个人信息，且多主体文档中非目标主体的保护被系统性忽视。这是评估单元的根本错误——应从文本片段转向个体人物。

本文目标：将匿名化评估的单元从文本片段转移到个体，构建覆盖多主体、多领域的推断式评估基准，并设计新的主体级保护度量。

切入角度：定义"主体"为文档中可识别的任何个人，对每个主体独立评估其 PII 是否可被对抗性 LLM 从匿名化文本中推断出来。

核心 idea：评估单元 = 个体人物（而非文本片段），保护指标 = 推断后剩余可知 PII 比例（而非遮蔽率）。

方法详解¶

整体框架¶

SPIA 包含基准构建和评估框架两部分。基准构建：从 TAB（法律判决）和 PANORAMA（在线文本）筛选 675 篇文档，人工+LLM 标注 1712 个主体和 7040 个 PII（15 个类别）。评估框架：三阶段流水线——(1) 匿名化方法处理原始文本；(2) 对抗性 LLM（Claude-Sonnet-4.5）对匿名化文本执行两阶段推断（主体识别 + PII 推断）；(3) 主体匹配 + PII 评分 + 计算 CPR/IPR 指标。

关键设计¶

两阶段主体级推断框架:
- 功能：从匿名化文本中识别所有可识别的主体，并对每个主体分别推断 PII
- 核心思路：Stage A 识别文档中所有主体并提供区分性描述（姓名、角色等）。Stage B 对每个识别出的主体推断 15 类 PII，分为 CODE（ID号、电话、邮箱等 5 类）和 NON-CODE（姓名、年龄、职业等 10 类）两批独立推断。分离的原因是避免模型同时处理 15 个类别、减少 prompt 长度、允许类型特定的处理
- 设计动机：扩展了 Staab et al. (2024) 的单作者画像方法到多主体场景。经过 11 个 LLM 验证，Claude-Sonnet-4.5 在主体匹配（96%）和推断准确率（91%）上表现最佳
CPR 和 IPR 保护度量:
- 功能：从集体和个体两个角度量化匿名化的保护效果
- 核心思路：CPR（Collective Protection Rate）= \(1 - \sum A_i / \sum O_i\)，按 PII 数量加权，PII 多的主体贡献更大。IPR（Individual Protection Rate）= \(\frac{1}{N}\sum(1 - A_i/O_i)\)，对所有主体等权平均。其中 \(O_i\) 是原始文本中主体 \(i\) 的 PII 数量，\(A_i\) 是对抗者从匿名化文本中仍能推断出的 PII 数量。两个指标 1 表示完全保护，0 表示完全暴露
- 设计动机：CPR 关注整体 PII 泄露量，IPR 关注是否每个个体都被平等保护——可能 CPR 高但某些主体完全暴露
PII 分类体系（CODE + NON-CODE）:
- 功能：覆盖 15 类 PII，按结构特征分类以支持不同的检测和评估策略
- 核心思路：CODE 类型有固定格式模式（ID号、驾照、电话、护照、邮箱），NON-CODE 类型是自由文本（姓名、性别、年龄、位置、国籍、教育、关系、职业、隶属、职位）。将 CODE 类型纳入推断评估是因为基于模式的 NER 可能遗漏未见格式
- 设计动机：区别于直接标识符/准标识符的传统分类（后者上下文依赖），按结构特征分类更稳定

损失函数 / 训练策略¶

本文是评估基准和框架，不涉及模型训练。对抗性 LLM 使用 Claude-Sonnet-4.5，PII 评分采用三级制：1.0 精确匹配、0.5 部分匹配、0.0 不匹配。

实验关键数据¶

主实验（TAB 法律数据集，部分匿名化方法 × 最优骨干）¶

方法	Token Recall	Entity Recall (di)	CPR	IPR	Utility
Longformer	0.940	0.997	0.330	0.325	0.874
DeID-GPT (GPT-4.1)	0.990	1.000	0.674	0.665	0.754
DP-Prompt (Claude-Sonnet)	0.789	0.450	0.452	0.446	0.764
Adversarial (GPT-4.1)	0.894	1.000	0.359	0.365	0.857

Span-based vs Inference-based 差异¶

数据集	最高 Token Recall	对应 CPR	差距
TAB	0.990	0.674	31.6%p
TAB (Longformer)	0.940	0.330	61.0%p
PANORAMA	0.984	0.799	18.5%p

关键发现¶

Span 指标严重高估保护水平：Longformer 的 Entity Recall 高达 99.7%，但 CPR 仅 33.0%，意味着即使几乎所有 PII 片段都被遮蔽，2/3 的个人信息仍可通过上下文推断
聚焦目标主体的匿名化（Adversarial）暴露非目标主体：在 TAB 上，1-AAC（目标主体保护）明显高于 CPR（全体保护），说明对抗性匿名化在保护申请人的同时忽视了证人、法官等非目标主体
TAB（长法律文档）比 PANORAMA（短在线文本）差距更大：法律文档上下文丰富，推断空间更大
即使在最佳配置下（DeID-GPT + GPT-4.1），TAB 上的 CPR 也仅 67.4%，仍有近 1/3 的 PII 可被推断
更换对抗者模型（GPT-4.1、Claude-Haiku-4.5）后 Spearman ρ > 0.98，评估结果稳健

亮点与洞察¶

评估单元从片段到个体的转变是本文最大的贡献。这个简单但深刻的观察改变了匿名化评估的逻辑基础，揭示了整个领域被 span 指标误导的盲区
多主体差异暴露的发现非常实用：对抗性匿名化保护了目标主体但忽视了其他人，这在 GDPR 要求保护所有可识别个体的背景下是严重合规风险
两阶段推断框架可迁移到其他隐私相关任务，如匿名化文本的隐私审计、LLM 训练数据的 PII 检测等

局限与展望¶

仅包含英语文档，PII 推断难度可能因语言和文化差异而变化
基准规模相对较小（675 篇），特别是 TAB 仅 144 篇
未评估更先进的匿名化方法（如结合差分隐私的生成式方法）
CPR/IPR 对 PII 类别不加区分——泄露姓名与泄露年龄的隐私风险显然不同
未来可扩展到多语言、更大规模的文档集合，并引入 PII 类别权重

评分¶

新颖性: ⭐⭐⭐⭐⭐ 评估范式转移（span → 个体）是有影响力的贡献，多主体视角切中 GDPR 的核心要求
实验充分度: ⭐⭐⭐⭐ 4 种匿名化方法 × 6 个骨干 × 2 个数据集，换对抗者验证稳健性
写作质量: ⭐⭐⭐⭐ Figure 1 的三种评估方式对比非常直观，概念层次清晰
价值: ⭐⭐⭐⭐⭐ "90% 遮蔽但 67% 可推断"的发现对隐私保护实践有直接影响