Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference¶

会议: NeurIPS 2025
arXiv: 2510.21017
代码: https://github.com/JamesLuoyh/FRG
领域: AI Safety / 公平性
关键词: 公平表征学习, 高置信保证, 对抗推断, 统计检验, 人口统计平等

一句话总结¶

提出 FRG（Fair Representation learning with high-confidence Guarantees），首个允许用户指定公平性阈值 \(\varepsilon\) 和置信水平 \(1-\delta\) 的公平表征学习框架：通过 VAE 候选选择 + 对抗推断最大化协方差 + Student's t-检验构造高置信上界，保证对任意下游模型和任务，\(\Delta_{DP} \leq \varepsilon\) 以至少 \(1-\delta\) 概率成立。

研究背景与动机¶

领域现状：公平表征学习（FRL）旨在数据生产者端学习去除敏感属性信息的表征，使任何下游消费者使用该表征时都不会产生不公平预测。LAFTR/ICVAE/LMIFR/CFAIR/FCRL 等方法通过训练集估计 \(\Delta_{DP}\) 上界，但这些估计不保证在未见测试集上成立。
现有痛点：（a）现有方法的公平性保证基于训练/验证集估计，可能因过拟合而在测试集上失效——6 个 baseline 方法中至少有 10% 的 trial 违反公平约束；（b）FARE 方法虽提供高置信证书，但不支持用户自定义 \(\varepsilon\) 和 \(\delta\)，且证书很松（通常是期望 \(\varepsilon\) 的数倍）；（c）缺乏一个框架让用户显式控制"公平阈值"和"置信水平"两个参数。
核心矛盾：在表征学习中，生产者不知道下游模型是什么——包括对抗性下游模型。需要保证即使面对最坏情况的下游使用，公平性仍然成立。
本文要解决什么？ 构建一个"data producer 端的保险"——学习表征时就提供 \(1-\delta\) 置信度保证，使得对任意下游任务和模型，\(\Delta_{DP} \leq \varepsilon\)。
切入角度：将 \(\Delta_{DP}\) 与 \(|\text{Cov}(\hat{Y}, S)|\) 建立等价关系（Theorem 5.2），将公平性检验转化为统计假设检验问题。
核心 idea 一句话：训练对抗模型找最大化协方差的最坏下游模型，在 held-out 数据上用 t-检验构造 \(g_\varepsilon(\phi)\) 的 \(1-\delta\) 上界，若上界 \(\leq 0\) 则认证公平，否则诚实返回"No Solution Found"。

方法详解¶

整体框架¶

FRG 将数据分为 \(D_c\)（候选选择用）和 \(D_f\)（公平性检验用），包含三个组件：（1）候选选择：用 VAE 在 \(D_c\) 上优化，搜索可能通过公平性检验的表征模型 \(\phi_c\)；（2）对抗推断：训练对抗模型从表征中预测敏感属性，最大化 \(|\text{Cov}(\hat{Y}, S)|\) 以逼近最坏情况；（3）公平性检验：在 \(D_f\) 上用对抗模型的预测构造 \(\Delta_{DP}\) 的 \(1-\delta\) 置信上界，若 \(\leq \varepsilon\) 则输出模型，否则返回 NSF。

关键设计¶

ΔDP 与协方差的等价关系（Theorem 5.2）：
做什么：将公平性度量转化为可优化和可检验的统计量
核心思路：当 \(S, \hat{Y} \in \{0,1\}\) 时，\(\Delta_{DP}(\tau, \phi) = |\text{Cov}(\hat{Y}, S)| / \text{Var}(S)\)。因此最坏情况下游模型 \(\tau^*_{adv} = \arg\max_\tau |\text{Cov}(\hat{Y}, S)|\)
设计动机：直接优化 \(\Delta_{DP}\) 需要枚举所有下游模型；通过等价关系转化为最大化协方差，可用标准梯度优化近似
对抗推断（Adversarial Inference）：
做什么：训练一个"最坏情况"下游模型来检测表征中的敏感属性残留
核心思路：在 \(D_c\) 上训练 \(\tau_{adv}\)，通过梯度优化最大化 \(\text{Cov}(\hat{Y}, S)\)，逼近最优对抗者 \(\tau^*_{adv}\)
设计动机：与 LAFTR 等方法的联合对抗训练不同，FRG 的对抗器是独立训练的——更可靠，不受联合优化不稳定性影响
公平性检验（Fairness Test）：
做什么：在 held-out 数据 \(D_f\) 上构造 \(g_\varepsilon(\phi) = \sup_\tau \Delta_{DP}(\tau, \phi) - \varepsilon\) 的 \(1-\delta\) 置信上界
核心思路：用对抗模型的预测在 \(D_f\) 上估计 \(\Pr(\hat{Y}=1|S=s)\) → 构造 \(m\) 个无偏估计 → Student's t-检验得 \(1-\delta\) 置信区间 \([c_l, c_u]\) → 上界 \(U_\varepsilon = \max(|c_l|, |c_u|) - \varepsilon\)。若 \(U_\varepsilon \leq 0\) 则通过
设计动机：在 \(D_f\)（未参与训练）上执行统计检验，避免过拟合；Student's t-检验在科学界广泛使用，可靠性高
诚实的 NSF 机制：
做什么：当无法以 \(1-\delta\) 置信度保证 \(\varepsilon\)-公平时，返回"No Solution Found"而非虚假声明
设计动机：避免 multiple comparisons 问题——每次候选只测试一次，测试失败就直接返回 NSF

损失函数 / 训练策略¶

候选选择用 VAE 目标 + 拉格朗日乘子法约束 \(\hat{U}_\varepsilon(\phi, D_c) \leq 0\)：\(\mathcal{L} = -\text{ELBO} + \lambda \hat{U}_\varepsilon(\phi, D_c)\)
引入膨胀因子 \(\alpha \geq 1\) 放大候选选择中的置信区间，减少候选通过选择但无法通过检验的情况
对抗器每轮仅做 \(t \in [1,10]\) 步梯度更新（效率考虑）

实验关键数据¶

主实验¶

方法	Adult 违反率	Income 违反率	Health 违反率	对抗任务违反率
FRG	<10%	<10%	<10%	<10%
LAFTR	>10%	>10%	>10%	显著违反
LMIFR	>10%	-	>10%	显著违反
FCRL	>10%	>10%	>10%	显著违反
FARE	<10%	<10%	<10%	<10%
ICVAE	部分<10%	>10%	部分<10%	显著违反

在 \(\varepsilon \in \{0.04, 0.08, 0.12, 0.16\}\), \(\delta=0.1\) 下：FRG 始终满足约束（违反率<10%），AUC 与 SOTA 可比或更优。

消融实验¶

配置	说明
FRG vs FRG_supervised	监督 FRG 略有提升但不显著——更强的表征可能暴露更多敏感信息
不同 \(\delta\)	\(\delta \in \{0.01, 0.05, 0.1, 0.15\}\)，较大 \(\delta\) 边际提升 AUC 但降低置信度
不同 \(\alpha\)	膨胀因子影响 NSF 率，过小→NSF 多，过大→置信区间松

关键发现¶

6 个 baseline 方法都无法一致满足公平约束：尤其在小 \(\varepsilon\) 和对抗任务上，LAFTR/LMIFR/FCRL/CFAIR 的违反率远超 10%。说明训练集估计的上界在测试集上不成立
FARE 虽然能控制违反率，但证书极松：同样 \(\varepsilon=0.04\) 时，FARE 的实际证书值可能是 0.12-0.16，无法精细控制
FRG 的 NSF 率合理：在 \(\varepsilon \geq 0.08\) 时，FRG 的解返回率 \(\geq 90%\)；仅在极小 \(\varepsilon\) 时 NSF 率较高——这是"诚实"的代价
对抗任务是最严格的检验：所有无高置信保证的方法在对抗任务上都明显失败，而 FRG 即使面对对抗下游模型也能保持公平
无监督 FRG 在迁移学习中更稳定：监督方法（LAFTR/CFAIR/FARE）在非目标任务上 AUC 显著下降，而无监督 FRG 保持一致

亮点与洞察¶

首个用户可控的高置信公平表征学习：允许用户显式指定 \(\varepsilon\) 和 \(\delta\)，这是从"经验公平"到"可认证公平"的质变。对法律合规（如 NYC Local Law 144）有直接意义
\(\Delta_{DP} = |\text{Cov}(\hat{Y}, S)|/\text{Var}(S)\) 的等价关系非常优雅：将公平性检验转化为标准统计量，使得 t-检验等成熟工具可直接使用
"诚实"设计理念：NSF 机制——无法保证时宁可不输出而非给出虚假保证。这种设计哲学在可信 AI 中值得推广
对抗器独立训练：与联合对抗训练相比更稳定可靠，且理论上更接近最优对抗

局限性 / 可改进方向¶

假设对抗器近似最优：实际训练的 \(\tau_{adv}\) 只是近似，若远离最优则保证可能不成立
仅支持二值敏感属性（主文），多值扩展在附录但实验较少
小 \(\varepsilon\) 和 \(\delta\) 时 NSF 率高：实际部署中可能需要大量数据才能在严格约束下找到解
t-检验假设正态分布：需要足够大样本使 CLT 成立
未考虑分布偏移：保证仅在 i.i.d. 假设下成立，特征/敏感属性的分布偏移需要进一步研究

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个可控高置信公平表征学习框架，理论贡献突出
实验充分度: ⭐⭐⭐⭐ 3 数据集 × 6 baseline × 多 \(\varepsilon\)/\(\delta\) 配置，含对抗任务和迁移学习评估
写作质量: ⭐⭐⭐⭐ 问题定义精确，理论推导清晰，但部分细节在附录
价值: ⭐⭐⭐⭐⭐ 对可信 AI 和公平性合规有重要意义，框架可推广到其他安全保证