Position: Bridge the Gaps between Machine Unlearning and AI Regulation¶

会议: NeurIPS 2025
arXiv: 2502.12430
代码: 暂无
领域: AI安全
关键词: 机器遗忘, AI监管, EU AI Act, 数据隐私, 合规

一句话总结¶

系统分析了机器遗忘（Machine Unlearning）在欧盟人工智能法案（AIA）合规中的六大潜在应用场景，指出每个场景中 SOTA 与实际需求之间的技术差距，呼吁研究社区弥补这些差距以释放机器遗忘在 AI 监管中的潜力。

研究背景与动机¶

领域现状¶

领域现状：机器遗忘（MU）自诞生以来一直以 GDPR 中的"被遗忘权"为动机。如今，以欧盟人工智能法案（AIA）为代表的新一波 AI 监管法规正在推进，研究者开始探索 MU 是否能辅助这些法规的合规。

然而本文的立场是：MU 辅助 AI 监管合规的潜力只有在研究者主动弥补技术差距的前提下才能实现。目前 MU 的 SOTA 与其在监管合规中的预期应用之间存在相当大的鸿沟。

选择 AIA 作为案例研究的原因：

现有痛点¶

现有痛点：AIA 是全球首部全面的 AI 监管法案，已于 2024 年生效

核心矛盾¶

核心矛盾：采用基于风险的分层监管方式，对高风险 AI 系统和通用 AI 模型有详细要求

解决思路¶

解决思路：AIA 的原则在全球 AI 监管中具有代表性，分析结果可推广到其他法规

方法详解¶

整体框架¶

本文不提出新算法，而是建立了 MU 与 AIA 合规之间的完整映射，识别出六大应用场景，并逐一分析每个场景中的技术挑战。

关键设计（六大应用场景分析）¶

准确性（Accuracy）：
- AIA 要求：高风险 AI 系统须达到与预期用途和 SOTA 匹配的适当准确度水平
- MU 可用途径：遗忘标签错误、过时或异常的训练数据以提升准确性
- 技术差距：识别所有导致不准确的数据点本身就很困难；部分遗忘可能适得其反；近似遗忘不应期望比精确重训更高的准确性
- 形式化定义：遗忘算法 \(U\) 是 \((\epsilon, \delta)\)-遗忘器，若 \(U(M; D_f, D_r)\) 的分布与 \(A(D_r)\) 的分布 \((\epsilon, \delta)\)-接近
偏见（Bias）：
- AIA 要求：高风险 AI 和系统性风险 GPAI 必须缓解歧视性偏见
- MU 可用途径：遗忘导致偏见的数据点或训练模式
- 技术差距：如果偏见源自数据缺失（而非数据存在），MU 无法帮助；如何评估偏见仍是"开放问题"；MU 主要是后处理方法，难以解决根源性偏见
机密性攻击（Confidentiality Attacks）：
- AIA 要求：检测和防控机密性攻击（成员推断、数据重构等）
- MU 可用途径：遗忘易受攻击的机密信息
- 技术差距：遗忘某些数据点可能反而暴露相邻数据的隐私（"洋葱效应"）；过度遗忘可能暴露遗忘数据本身的成员身份（"史翠珊效应"）；近似遗忘存在准确性和偏见的权衡
- 替代方案：差分隐私（DP）在某些场景下可能更优
数据投毒（Data Poisoning）：
- AIA 要求：预防、检测和控制数据投毒攻击
- MU 可用途径：移除已知投毒数据的影响
- 技术差距：识别完整的投毒样本集极具挑战性；投毒数据与干净数据可能视觉上不可区分；部分方法存在显著的准确性权衡
生成式 AI 风险（GenAI Risk）：
- AIA 要求：缓解有害生成输出（不良医疗建议、CBRN 知识、歧视性内容等）
- MU 可用途径：遗忘训练集中导致有害输出的数据或概念
- 技术差距：宽泛概念（如非歧视）难以具体化为离散遗忘集；即使移除直接有害数据，模型仍可能从剩余数据的潜在信息中组装出危险输出；双重用途问题使遗忘集识别更困难
版权（Copyright）：
- AIA 要求：GPAI 提供者须有版权合规政策，尊重数据挖掘退出请求
- MU 可用途径：在输出阶段防止受版权保护的训练数据被再现
- 技术差距：即使精确重训（移除版权数据）也不能保证输出不侵权，因为模型可能从剩余数据中泛化出相似表征；近似遗忘"不足以"用于版权场景

损失函数 / 训练策略¶

形式化框架：模型 \(M = A(D)\)，遗忘算法 \(U(M; D_f, D_r)\) 产生遗忘模型 \(M_u\)。当 \(\epsilon = \delta = 0\) 时为精确遗忘，否则为近似遗忘。三大目标需权衡：模型效用、遗忘质量和效率。

实验关键数据¶

SOTA 能力总结（按场景）¶

主实验¶

应用场景	MU SOTA 可行性	主要障碍	替代方案
准确性	较高	识别问题数据点	全量重训、改进数据管线
偏见	中等	评估标准不统一、数据缺失不可遗忘	前/中/后处理去偏方法
机密攻击	中等	洋葱/史翠珊效应、新攻击适应性差	差分隐私、访问控制
数据投毒	较低	识别投毒集、准确性权衡	鲁棒训练、数据清洗
GenAI 风险	较低	概念级遗忘困难、双重用途	RLHF、护栏机制
版权	较低	潜在信息泛化、形式保证缺失	数据治理、输出过滤

核心挑战分析¶

消融实验¶

横切挑战	影响范围	当前状态
遗忘集识别	全部6个场景	大多数场景下仍是未解决问题
可审计性/验证	全部6个场景	近似MU缺乏形式化保证
效用-遗忘权衡	准确性、偏见、机密性	遗忘更多数据时准确性下降
隐私-遗忘冲突	机密性	遗忘可能反而暴露信息
概念级遗忘	GenAI风险、版权	分布式表征中的非离散目标

关键发现¶

MU 对 AIA 合规有潜在价值但远非银弹——6 个场景中大多数存在相当大的技术差距
可审计性是贯穿所有场景的核心挑战：监管者需要验证遗忘的有效性，但当前近似 MU 方法仅依赖经验代理指标
各场景之间存在相互依赖：如遗忘修复准确性可能影响公平性，去偏遗忘可能改变隐私攻击暴露面
在许多场景中，MU 更适合作为"反应式补救"而非"预防性保护"

亮点与洞察¶

首次完整映射 MU 技术与 AIA 法规条款的对应关系，为 MU 研究者提供了清晰的监管需求全景图
对每个应用场景同时分析了 MU 的潜力和替代方案，公平客观
强调"可审计性"这一被 MU 社区普遍忽视的核心需求——如果无法向监管者证明遗忘有效，技术优势无从发挥
指出 MU 的"洋葱效应"和"史翠珊效应"两个反直觉风险

局限与展望¶

作为立场论文（position paper），不包含新的算法或实验
主要分析 AIA，但对其他法规（如美国州级 AI 法案、加拿大 AIDA）的适用性仅简略提及
未深入讨论 MU 与其他技术（如 DP、RLHF）的组合使用策略
部分分析较为定性，缺乏量化的差距评估

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将MU与AI法规对齐分析，视角新颖
实验充分度: ⭐⭐⭐ 无实验，但文献分析全面系统
写作质量: ⭐⭐⭐⭐⭐ 法律条款引用精确，技术分析平衡客观
价值: ⭐⭐⭐⭐ 为MU社区指明了法规驱动的研究方向，弥合AI安全研究与政策需求的重要桥梁