跳转至

Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference

会议: NeurIPS 2025
arXiv: 2510.21017
代码: https://github.com/JamesLuoyh/FRG
领域: AI Safety / 公平性
关键词: 公平表征学习, 高置信保证, 对抗推断, 统计检验, 人口统计平等

一句话总结

提出 FRG(Fair Representation learning with high-confidence Guarantees),首个允许用户指定公平性阈值 \(\varepsilon\) 和置信水平 \(1-\delta\) 的公平表征学习框架:通过 VAE 候选选择 + 对抗推断最大化协方差 + Student's t-检验构造高置信上界,保证对任意下游模型和任务,\(\Delta_{DP} \leq \varepsilon\) 以至少 \(1-\delta\) 概率成立。

研究背景与动机

  1. 领域现状:公平表征学习(FRL)旨在数据生产者端学习去除敏感属性信息的表征,使任何下游消费者使用该表征时都不会产生不公平预测。LAFTR/ICVAE/LMIFR/CFAIR/FCRL 等方法通过训练集估计 \(\Delta_{DP}\) 上界,但这些估计不保证在未见测试集上成立。
  2. 现有痛点:(a)现有方法的公平性保证基于训练/验证集估计,可能因过拟合而在测试集上失效——6 个 baseline 方法中至少有 10% 的 trial 违反公平约束;(b)FARE 方法虽提供高置信证书,但不支持用户自定义 \(\varepsilon\)\(\delta\),且证书很松(通常是期望 \(\varepsilon\) 的数倍);(c)缺乏一个框架让用户显式控制"公平阈值"和"置信水平"两个参数。
  3. 核心矛盾:在表征学习中,生产者不知道下游模型是什么——包括对抗性下游模型。需要保证即使面对最坏情况的下游使用,公平性仍然成立。
  4. 本文要解决什么? 构建一个"data producer 端的保险"——学习表征时就提供 \(1-\delta\) 置信度保证,使得对任意下游任务和模型,\(\Delta_{DP} \leq \varepsilon\)
  5. 切入角度:将 \(\Delta_{DP}\)\(|\text{Cov}(\hat{Y}, S)|\) 建立等价关系(Theorem 5.2),将公平性检验转化为统计假设检验问题。
  6. 核心 idea 一句话:训练对抗模型找最大化协方差的最坏下游模型,在 held-out 数据上用 t-检验构造 \(g_\varepsilon(\phi)\)\(1-\delta\) 上界,若上界 \(\leq 0\) 则认证公平,否则诚实返回"No Solution Found"。

方法详解

整体框架

FRG 将数据分为 \(D_c\)(候选选择用)和 \(D_f\)(公平性检验用),包含三个组件:(1)候选选择:用 VAE 在 \(D_c\) 上优化,搜索可能通过公平性检验的表征模型 \(\phi_c\);(2)对抗推断:训练对抗模型从表征中预测敏感属性,最大化 \(|\text{Cov}(\hat{Y}, S)|\) 以逼近最坏情况;(3)公平性检验:在 \(D_f\) 上用对抗模型的预测构造 \(\Delta_{DP}\)\(1-\delta\) 置信上界,若 \(\leq \varepsilon\) 则输出模型,否则返回 NSF。

关键设计

  1. ΔDP 与协方差的等价关系(Theorem 5.2)
  2. 做什么:将公平性度量转化为可优化和可检验的统计量
  3. 核心思路:当 \(S, \hat{Y} \in \{0,1\}\) 时,\(\Delta_{DP}(\tau, \phi) = |\text{Cov}(\hat{Y}, S)| / \text{Var}(S)\)。因此最坏情况下游模型 \(\tau^*_{adv} = \arg\max_\tau |\text{Cov}(\hat{Y}, S)|\)
  4. 设计动机:直接优化 \(\Delta_{DP}\) 需要枚举所有下游模型;通过等价关系转化为最大化协方差,可用标准梯度优化近似

  5. 对抗推断(Adversarial Inference)

  6. 做什么:训练一个"最坏情况"下游模型来检测表征中的敏感属性残留
  7. 核心思路:在 \(D_c\) 上训练 \(\tau_{adv}\),通过梯度优化最大化 \(\text{Cov}(\hat{Y}, S)\),逼近最优对抗者 \(\tau^*_{adv}\)
  8. 设计动机:与 LAFTR 等方法的联合对抗训练不同,FRG 的对抗器是独立训练的——更可靠,不受联合优化不稳定性影响

  9. 公平性检验(Fairness Test)

  10. 做什么:在 held-out 数据 \(D_f\) 上构造 \(g_\varepsilon(\phi) = \sup_\tau \Delta_{DP}(\tau, \phi) - \varepsilon\)\(1-\delta\) 置信上界
  11. 核心思路:用对抗模型的预测在 \(D_f\) 上估计 \(\Pr(\hat{Y}=1|S=s)\) → 构造 \(m\) 个无偏估计 → Student's t-检验得 \(1-\delta\) 置信区间 \([c_l, c_u]\) → 上界 \(U_\varepsilon = \max(|c_l|, |c_u|) - \varepsilon\)。若 \(U_\varepsilon \leq 0\) 则通过
  12. 设计动机:在 \(D_f\)(未参与训练)上执行统计检验,避免过拟合;Student's t-检验在科学界广泛使用,可靠性高

  13. 诚实的 NSF 机制

  14. 做什么:当无法以 \(1-\delta\) 置信度保证 \(\varepsilon\)-公平时,返回"No Solution Found"而非虚假声明
  15. 设计动机:避免 multiple comparisons 问题——每次候选只测试一次,测试失败就直接返回 NSF

损失函数 / 训练策略

  • 候选选择用 VAE 目标 + 拉格朗日乘子法约束 \(\hat{U}_\varepsilon(\phi, D_c) \leq 0\)\(\mathcal{L} = -\text{ELBO} + \lambda \hat{U}_\varepsilon(\phi, D_c)\)
  • 引入膨胀因子 \(\alpha \geq 1\) 放大候选选择中的置信区间,减少候选通过选择但无法通过检验的情况
  • 对抗器每轮仅做 \(t \in [1,10]\) 步梯度更新(效率考虑)

实验关键数据

主实验

方法 Adult 违反率 Income 违反率 Health 违反率 对抗任务违反率
FRG <10% <10% <10% <10%
LAFTR >10% >10% >10% 显著违反
LMIFR >10% - >10% 显著违反
FCRL >10% >10% >10% 显著违反
FARE <10% <10% <10% <10%
ICVAE 部分<10% >10% 部分<10% 显著违反

\(\varepsilon \in \{0.04, 0.08, 0.12, 0.16\}\), \(\delta=0.1\) 下:FRG 始终满足约束(违反率<10%),AUC 与 SOTA 可比或更优。

消融实验

配置 说明
FRG vs FRG_supervised 监督 FRG 略有提升但不显著——更强的表征可能暴露更多敏感信息
不同 \(\delta\) \(\delta \in \{0.01, 0.05, 0.1, 0.15\}\),较大 \(\delta\) 边际提升 AUC 但降低置信度
不同 \(\alpha\) 膨胀因子影响 NSF 率,过小→NSF 多,过大→置信区间松

关键发现

  • 6 个 baseline 方法都无法一致满足公平约束:尤其在小 \(\varepsilon\) 和对抗任务上,LAFTR/LMIFR/FCRL/CFAIR 的违反率远超 10%。说明训练集估计的上界在测试集上不成立
  • FARE 虽然能控制违反率,但证书极松:同样 \(\varepsilon=0.04\) 时,FARE 的实际证书值可能是 0.12-0.16,无法精细控制
  • FRG 的 NSF 率合理:在 \(\varepsilon \geq 0.08\) 时,FRG 的解返回率 \(\geq 90%\);仅在极小 \(\varepsilon\) 时 NSF 率较高——这是"诚实"的代价
  • 对抗任务是最严格的检验:所有无高置信保证的方法在对抗任务上都明显失败,而 FRG 即使面对对抗下游模型也能保持公平
  • 无监督 FRG 在迁移学习中更稳定:监督方法(LAFTR/CFAIR/FARE)在非目标任务上 AUC 显著下降,而无监督 FRG 保持一致

亮点与洞察

  • 首个用户可控的高置信公平表征学习:允许用户显式指定 \(\varepsilon\)\(\delta\),这是从"经验公平"到"可认证公平"的质变。对法律合规(如 NYC Local Law 144)有直接意义
  • \(\Delta_{DP} = |\text{Cov}(\hat{Y}, S)|/\text{Var}(S)\) 的等价关系非常优雅:将公平性检验转化为标准统计量,使得 t-检验等成熟工具可直接使用
  • "诚实"设计理念:NSF 机制——无法保证时宁可不输出而非给出虚假保证。这种设计哲学在可信 AI 中值得推广
  • 对抗器独立训练:与联合对抗训练相比更稳定可靠,且理论上更接近最优对抗

局限性 / 可改进方向

  • 假设对抗器近似最优:实际训练的 \(\tau_{adv}\) 只是近似,若远离最优则保证可能不成立
  • 仅支持二值敏感属性(主文),多值扩展在附录但实验较少
  • \(\varepsilon\)\(\delta\) 时 NSF 率高:实际部署中可能需要大量数据才能在严格约束下找到解
  • t-检验假设正态分布:需要足够大样本使 CLT 成立
  • 未考虑分布偏移:保证仅在 i.i.d. 假设下成立,特征/敏感属性的分布偏移需要进一步研究

相关工作与启发

  • vs LAFTR/LMIFR/CFAIR:这些方法在训练集上估计公平性上界,但测试集上违反率 >10%——缺乏统计保证是根本问题
  • vs FARE:同样提供高置信保证,但 FARE 的证书极松(通常数倍于 \(\varepsilon\))且不支持用户自定义阈值;FRG 通过对抗推断获得更紧的上界
  • vs Seldonian algorithms:FRG 属于 Seldonian 算法家族——"先保证安全性,再优化性能"的框架可推广到隐私、鲁棒性等其他保证

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个可控高置信公平表征学习框架,理论贡献突出
  • 实验充分度: ⭐⭐⭐⭐ 3 数据集 × 6 baseline × 多 \(\varepsilon\)/\(\delta\) 配置,含对抗任务和迁移学习评估
  • 写作质量: ⭐⭐⭐⭐ 问题定义精确,理论推导清晰,但部分细节在附录
  • 价值: ⭐⭐⭐⭐⭐ 对可信 AI 和公平性合规有重要意义,框架可推广到其他安全保证