Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference¶
会议: NeurIPS 2025
arXiv: 2510.21017
代码: https://github.com/JamesLuoyh/FRG
领域: AI Safety / 公平性
关键词: 公平表征学习, 高置信保证, 对抗推断, 统计检验, 人口统计平等
一句话总结¶
提出 FRG(Fair Representation learning with high-confidence Guarantees),首个允许用户指定公平性阈值 \(\varepsilon\) 和置信水平 \(1-\delta\) 的公平表征学习框架:通过 VAE 候选选择 + 对抗推断最大化协方差 + Student's t-检验构造高置信上界,保证对任意下游模型和任务,\(\Delta_{DP} \leq \varepsilon\) 以至少 \(1-\delta\) 概率成立。
研究背景与动机¶
- 领域现状:公平表征学习(FRL)旨在数据生产者端学习去除敏感属性信息的表征,使任何下游消费者使用该表征时都不会产生不公平预测。LAFTR/ICVAE/LMIFR/CFAIR/FCRL 等方法通过训练集估计 \(\Delta_{DP}\) 上界,但这些估计不保证在未见测试集上成立。
- 现有痛点:(a)现有方法的公平性保证基于训练/验证集估计,可能因过拟合而在测试集上失效——6 个 baseline 方法中至少有 10% 的 trial 违反公平约束;(b)FARE 方法虽提供高置信证书,但不支持用户自定义 \(\varepsilon\) 和 \(\delta\),且证书很松(通常是期望 \(\varepsilon\) 的数倍);(c)缺乏一个框架让用户显式控制"公平阈值"和"置信水平"两个参数。
- 核心矛盾:在表征学习中,生产者不知道下游模型是什么——包括对抗性下游模型。需要保证即使面对最坏情况的下游使用,公平性仍然成立。
- 本文要解决什么? 构建一个"data producer 端的保险"——学习表征时就提供 \(1-\delta\) 置信度保证,使得对任意下游任务和模型,\(\Delta_{DP} \leq \varepsilon\)。
- 切入角度:将 \(\Delta_{DP}\) 与 \(|\text{Cov}(\hat{Y}, S)|\) 建立等价关系(Theorem 5.2),将公平性检验转化为统计假设检验问题。
- 核心 idea 一句话:训练对抗模型找最大化协方差的最坏下游模型,在 held-out 数据上用 t-检验构造 \(g_\varepsilon(\phi)\) 的 \(1-\delta\) 上界,若上界 \(\leq 0\) 则认证公平,否则诚实返回"No Solution Found"。
方法详解¶
整体框架¶
FRG 将数据分为 \(D_c\)(候选选择用)和 \(D_f\)(公平性检验用),包含三个组件:(1)候选选择:用 VAE 在 \(D_c\) 上优化,搜索可能通过公平性检验的表征模型 \(\phi_c\);(2)对抗推断:训练对抗模型从表征中预测敏感属性,最大化 \(|\text{Cov}(\hat{Y}, S)|\) 以逼近最坏情况;(3)公平性检验:在 \(D_f\) 上用对抗模型的预测构造 \(\Delta_{DP}\) 的 \(1-\delta\) 置信上界,若 \(\leq \varepsilon\) 则输出模型,否则返回 NSF。
关键设计¶
- ΔDP 与协方差的等价关系(Theorem 5.2):
- 做什么:将公平性度量转化为可优化和可检验的统计量
- 核心思路:当 \(S, \hat{Y} \in \{0,1\}\) 时,\(\Delta_{DP}(\tau, \phi) = |\text{Cov}(\hat{Y}, S)| / \text{Var}(S)\)。因此最坏情况下游模型 \(\tau^*_{adv} = \arg\max_\tau |\text{Cov}(\hat{Y}, S)|\)
-
设计动机:直接优化 \(\Delta_{DP}\) 需要枚举所有下游模型;通过等价关系转化为最大化协方差,可用标准梯度优化近似
-
对抗推断(Adversarial Inference):
- 做什么:训练一个"最坏情况"下游模型来检测表征中的敏感属性残留
- 核心思路:在 \(D_c\) 上训练 \(\tau_{adv}\),通过梯度优化最大化 \(\text{Cov}(\hat{Y}, S)\),逼近最优对抗者 \(\tau^*_{adv}\)
-
设计动机:与 LAFTR 等方法的联合对抗训练不同,FRG 的对抗器是独立训练的——更可靠,不受联合优化不稳定性影响
-
公平性检验(Fairness Test):
- 做什么:在 held-out 数据 \(D_f\) 上构造 \(g_\varepsilon(\phi) = \sup_\tau \Delta_{DP}(\tau, \phi) - \varepsilon\) 的 \(1-\delta\) 置信上界
- 核心思路:用对抗模型的预测在 \(D_f\) 上估计 \(\Pr(\hat{Y}=1|S=s)\) → 构造 \(m\) 个无偏估计 → Student's t-检验得 \(1-\delta\) 置信区间 \([c_l, c_u]\) → 上界 \(U_\varepsilon = \max(|c_l|, |c_u|) - \varepsilon\)。若 \(U_\varepsilon \leq 0\) 则通过
-
设计动机:在 \(D_f\)(未参与训练)上执行统计检验,避免过拟合;Student's t-检验在科学界广泛使用,可靠性高
-
诚实的 NSF 机制:
- 做什么:当无法以 \(1-\delta\) 置信度保证 \(\varepsilon\)-公平时,返回"No Solution Found"而非虚假声明
- 设计动机:避免 multiple comparisons 问题——每次候选只测试一次,测试失败就直接返回 NSF
损失函数 / 训练策略¶
- 候选选择用 VAE 目标 + 拉格朗日乘子法约束 \(\hat{U}_\varepsilon(\phi, D_c) \leq 0\):\(\mathcal{L} = -\text{ELBO} + \lambda \hat{U}_\varepsilon(\phi, D_c)\)
- 引入膨胀因子 \(\alpha \geq 1\) 放大候选选择中的置信区间,减少候选通过选择但无法通过检验的情况
- 对抗器每轮仅做 \(t \in [1,10]\) 步梯度更新(效率考虑)
实验关键数据¶
主实验¶
| 方法 | Adult 违反率 | Income 违反率 | Health 违反率 | 对抗任务违反率 |
|---|---|---|---|---|
| FRG | <10% | <10% | <10% | <10% |
| LAFTR | >10% | >10% | >10% | 显著违反 |
| LMIFR | >10% | - | >10% | 显著违反 |
| FCRL | >10% | >10% | >10% | 显著违反 |
| FARE | <10% | <10% | <10% | <10% |
| ICVAE | 部分<10% | >10% | 部分<10% | 显著违反 |
在 \(\varepsilon \in \{0.04, 0.08, 0.12, 0.16\}\), \(\delta=0.1\) 下:FRG 始终满足约束(违反率<10%),AUC 与 SOTA 可比或更优。
消融实验¶
| 配置 | 说明 |
|---|---|
| FRG vs FRG_supervised | 监督 FRG 略有提升但不显著——更强的表征可能暴露更多敏感信息 |
| 不同 \(\delta\) | \(\delta \in \{0.01, 0.05, 0.1, 0.15\}\),较大 \(\delta\) 边际提升 AUC 但降低置信度 |
| 不同 \(\alpha\) | 膨胀因子影响 NSF 率,过小→NSF 多,过大→置信区间松 |
关键发现¶
- 6 个 baseline 方法都无法一致满足公平约束:尤其在小 \(\varepsilon\) 和对抗任务上,LAFTR/LMIFR/FCRL/CFAIR 的违反率远超 10%。说明训练集估计的上界在测试集上不成立
- FARE 虽然能控制违反率,但证书极松:同样 \(\varepsilon=0.04\) 时,FARE 的实际证书值可能是 0.12-0.16,无法精细控制
- FRG 的 NSF 率合理:在 \(\varepsilon \geq 0.08\) 时,FRG 的解返回率 \(\geq 90%\);仅在极小 \(\varepsilon\) 时 NSF 率较高——这是"诚实"的代价
- 对抗任务是最严格的检验:所有无高置信保证的方法在对抗任务上都明显失败,而 FRG 即使面对对抗下游模型也能保持公平
- 无监督 FRG 在迁移学习中更稳定:监督方法(LAFTR/CFAIR/FARE)在非目标任务上 AUC 显著下降,而无监督 FRG 保持一致
亮点与洞察¶
- 首个用户可控的高置信公平表征学习:允许用户显式指定 \(\varepsilon\) 和 \(\delta\),这是从"经验公平"到"可认证公平"的质变。对法律合规(如 NYC Local Law 144)有直接意义
- \(\Delta_{DP} = |\text{Cov}(\hat{Y}, S)|/\text{Var}(S)\) 的等价关系非常优雅:将公平性检验转化为标准统计量,使得 t-检验等成熟工具可直接使用
- "诚实"设计理念:NSF 机制——无法保证时宁可不输出而非给出虚假保证。这种设计哲学在可信 AI 中值得推广
- 对抗器独立训练:与联合对抗训练相比更稳定可靠,且理论上更接近最优对抗
局限性 / 可改进方向¶
- 假设对抗器近似最优:实际训练的 \(\tau_{adv}\) 只是近似,若远离最优则保证可能不成立
- 仅支持二值敏感属性(主文),多值扩展在附录但实验较少
- 小 \(\varepsilon\) 和 \(\delta\) 时 NSF 率高:实际部署中可能需要大量数据才能在严格约束下找到解
- t-检验假设正态分布:需要足够大样本使 CLT 成立
- 未考虑分布偏移:保证仅在 i.i.d. 假设下成立,特征/敏感属性的分布偏移需要进一步研究
相关工作与启发¶
- vs LAFTR/LMIFR/CFAIR:这些方法在训练集上估计公平性上界,但测试集上违反率 >10%——缺乏统计保证是根本问题
- vs FARE:同样提供高置信保证,但 FARE 的证书极松(通常数倍于 \(\varepsilon\))且不支持用户自定义阈值;FRG 通过对抗推断获得更紧的上界
- vs Seldonian algorithms:FRG 属于 Seldonian 算法家族——"先保证安全性,再优化性能"的框架可推广到隐私、鲁棒性等其他保证
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个可控高置信公平表征学习框架,理论贡献突出
- 实验充分度: ⭐⭐⭐⭐ 3 数据集 × 6 baseline × 多 \(\varepsilon\)/\(\delta\) 配置,含对抗任务和迁移学习评估
- 写作质量: ⭐⭐⭐⭐ 问题定义精确,理论推导清晰,但部分细节在附录
- 价值: ⭐⭐⭐⭐⭐ 对可信 AI 和公平性合规有重要意义,框架可推广到其他安全保证