Fair Model-Based Clustering¶
会议: AAAI 2026
arXiv: 2602.21509
代码: 无
领域: AI安全/公平性
关键词: 公平聚类, 有限混合模型, EM算法, 小批量学习, 可扩展性
一句话总结¶
提出基于有限混合模型的公平聚类算法 FMC,通过在模型参数(而非样本级赋值)上施加公平性约束,实现参数量与样本量无关的可扩展公平聚类,支持小批量学习和分类数据,在大规模数据集上显著优于现有方法。
研究背景与动机¶
领域现状:公平聚类要求每个簇中敏感属性(如性别、种族)的比例与整体数据集相似。现有方法大多基于 K-means 聚类,在公平约束下同时优化簇中心和赋值映射。
现有痛点: - 每个样本的簇赋值需要与簇中心同时优化→可学习参数数量与样本量 \(N\) 成正比→大规模数据难以扩展 - 公平约束依赖于完整数据集的赋值→小批量学习不可行(通常的加速手段失效) - 基于 K-means 需要度量空间→无法处理分类数据等非度量数据 - 训练完成后赋值映射仅定义在训练数据上→新数据公平分配困难
核心矛盾:如何使公平聚类算法的计算复杂度与样本量解耦,同时保持公平性保证?
本文目标 开发参数量独立于样本量的可扩展公平聚类算法。
切入角度:用概率混合模型替代几何距离,将公平约束从赋值映射转移到模型参数上——参数化的赋值映射天然支持小批量和新数据分配。
核心 idea:基于有限混合模型的公平聚类,通过在模型参数上施加 Gap 约束实现参数量与 \(N\) 无关的可扩展性。
方法详解¶
整体框架¶
输入为带敏感属性的数据集和簇数 \(K\),输出为公平的概率赋值映射。假设数据由 \(K\) 个混合成分生成:\(X \sim \sum_{k=1}^K \pi_k f(\cdot; \theta_k)\)。通过最大化带公平约束的对数似然来估计参数 \(\Theta = (\boldsymbol{\pi}, (\theta_1, ..., \theta_K))\)。
关键设计¶
-
参数化赋值映射:
- 功能:用混合模型的后验概率作为软赋值映射
- 核心思路:\(\psi_k(x_i; \Theta) = \frac{\pi_k f(x_i; \theta_k)}{\sum_l \pi_l f(x_i; \theta_l)}\)
- 设计动机:赋值映射由模型参数 \(\Theta\) 完全决定,参数量(\(K\) 个均值+协方差+混合权重)与 \(N\) 无关
-
Gap 公平约束:
- 功能:确保每个簇中各敏感群体的比例接近
- 核心思路:定义 \(\Delta(\Theta) = \max_k |\frac{\sum_{x_i \in \mathcal{D}^{(1)}} \psi_k(x_i; \Theta)}{N_1} - \frac{\sum_{x_j \in \mathcal{D}^{(2)}} \psi_k(x_j; \Theta)}{N_2}|\),优化目标为 \(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)
- 设计动机:Gap 比 Balance 指标数值更稳定,适合梯度优化
-
FMC-GD 和 FMC-EM 优化算法:
- FMC-GD:直接对 \(\ell(\Theta|\mathcal{D}; \lambda)\) 做梯度下降
- FMC-EM:修改 Q 函数加入公平惩罚 \(Q_{fair} = \mathbb{E}[\ell_{comp}(\Theta|Y)] - \lambda\Delta(\Theta)\),用 GEM(广义 EM)保证每步 Q 函数单调递增
- 实验表明 FMC-EM 在成本-公平性权衡上更优且方差更小
-
小批量学习与子采样 \(\Delta\):
- 功能:解决大规模数据上的计算瓶颈
- 核心思路:对似然部分用小批量,对 \(\Delta\) 用子采样——理论证明子采样 \(\Delta\) 的近似误差为 \(O(\sqrt{d/n'})\)(Proposition 1)
- 设计动机:现有方法无法小批量学习(公平性依赖完整赋值),本文的参数化赋值映射使这一切成为可能
损失函数 / 训练策略¶
\(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)。FMC-GD:T=10000,学习率 \(10^{-3}\)。FMC-EM:T=200,内循环 R=10,学习率 \(10^{-2}\)。
实验关键数据¶
主实验¶
在 Adult、Bank、Credit 三个中等规模 UCI 数据集上比较 \(\Delta\) vs Cost 的 Pareto 前沿。FMC-EM 与 SFC、VFC、FCA 等基线方法竞争力相当,在 Credit 数据集上明显优于基线。
大规模实验(Census,245 万样本)¶
| 方法 | 时间(秒) | 可行性 |
|---|---|---|
| SFC | 超时 | ❌ |
| VFC | 超时 | ❌ |
| FCA | ~3000 | ✅ |
| FMC (子采样5%) | ~60 | ✅ |
FMC 在 Census 数据集上比最快的基线 FCA 快约 50 倍,同时公平性和聚类成本相当。
关键发现¶
- FMC-EM 优于 FMC-GD,Pareto 前沿更好且方差更小
- 子采样到 5% 时性能几乎无损——子采样比例从 100% 降到 5%,\(\Delta\) 和 Cost 变化微小
- FMC 可直接扩展到分类数据(用多项分布替换高斯分布),现有 K-means 基方法无法做到
- 新数据的公平分配:FMC 学到参数化赋值映射后可直接应用于测试数据,现有方法需要重新优化
亮点与洞察¶
- 从赋值优化转向参数优化的视角转换很优雅——一步解决了可扩展性、小批量、新数据分配三个问题
- 子采样 \(\Delta\) 的理论保证(Proposition 1)使小批量学习在公平聚类中首次有理论支撑
- 分类数据扩展是现有公平聚类方法无法覆盖的独特优势
局限与展望¶
- 高斯混合模型假设数据服从特定分布,对复杂非线性流形结构可能不适用
- \(\lambda\) 的选择需要人工调参来控制公平-成本权衡
- 仅考虑二元敏感属性的主要分析,多元扩展虽有讨论但实验较少
- 未与深度聚类或对比学习方法结合
相关工作与启发¶
- vs SFC (fairlet):SFC 预处理做 fairlet 分解,计算复杂度高,大规模数据超时;FMC 参数化方法天然可扩展
- vs VFC:VFC 用 KL 散度做变分公平约束,同样不支持小批量;FMC 的子采样策略解决这一问题
- vs FCA:FCA 是最新 SOTA,在中等数据上各有优劣,但大规模上 FMC 远快于 FCA
评分¶
- 新颖性: ⭐⭐⭐⭐ 用混合模型做公平聚类的视角新颖,解决了可扩展性的核心问题
- 实验充分度: ⭐⭐⭐⭐ 4 个数据集+大规模验证+子采样分析,说服力强
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,问题动机清晰
- 价值: ⭐⭐⭐⭐ 首个可扩展的概率模型公平聚类,实际应用价值高
相关论文¶
- [AAAI 2026] Generalizing Fair Clustering to Multiple Groups: Algorithms and Applications
- [ICML 2025] Relative Error Fair Clustering in the Weak-Strong Oracle Model
- [AAAI 2026] DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks
- [ICLR 2026] Fair in Mind, Fair in Action? A Synchronous Benchmark for Understanding and Generation in UMLLMs
- [AAAI 2026] Ghost in the Transformer: Detecting Model Reuse with Invariant Spectral Signatures