Fair Model-Based Clustering¶

会议: AAAI 2026
arXiv: 2602.21509
代码: 无
领域: AI安全/公平性
关键词: 公平聚类, 有限混合模型, EM算法, 小批量学习, 可扩展性

一句话总结¶

提出基于有限混合模型的公平聚类算法 FMC，通过在模型参数（而非样本级赋值）上施加公平性约束，实现参数量与样本量无关的可扩展公平聚类，支持小批量学习和分类数据，在大规模数据集上显著优于现有方法。

研究背景与动机¶

领域现状：公平聚类要求每个簇中敏感属性（如性别、种族）的比例与整体数据集相似。现有方法大多基于 K-means 聚类，在公平约束下同时优化簇中心和赋值映射。

现有痛点： - 每个样本的簇赋值需要与簇中心同时优化→可学习参数数量与样本量 \(N\) 成正比→大规模数据难以扩展 - 公平约束依赖于完整数据集的赋值→小批量学习不可行（通常的加速手段失效） - 基于 K-means 需要度量空间→无法处理分类数据等非度量数据 - 训练完成后赋值映射仅定义在训练数据上→新数据公平分配困难

核心矛盾：如何使公平聚类算法的计算复杂度与样本量解耦，同时保持公平性保证？

本文目标 开发参数量独立于样本量的可扩展公平聚类算法。

切入角度：用概率混合模型替代几何距离，将公平约束从赋值映射转移到模型参数上——参数化的赋值映射天然支持小批量和新数据分配。

核心 idea：基于有限混合模型的公平聚类，通过在模型参数上施加 Gap 约束实现参数量与 \(N\) 无关的可扩展性。

方法详解¶

整体框架¶

输入为带敏感属性的数据集和簇数 \(K\)，输出为公平的概率赋值映射。假设数据由 \(K\) 个混合成分生成：\(X \sim \sum_{k=1}^K \pi_k f(\cdot; \theta_k)\)。通过最大化带公平约束的对数似然来估计参数 \(\Theta = (\boldsymbol{\pi}, (\theta_1, ..., \theta_K))\)。

关键设计¶

参数化赋值映射:
- 功能：用混合模型的后验概率作为软赋值映射
- 核心思路：\(\psi_k(x_i; \Theta) = \frac{\pi_k f(x_i; \theta_k)}{\sum_l \pi_l f(x_i; \theta_l)}\)
- 设计动机：赋值映射由模型参数 \(\Theta\) 完全决定，参数量（\(K\) 个均值+协方差+混合权重）与 \(N\) 无关
Gap 公平约束:
- 功能：确保每个簇中各敏感群体的比例接近
- 核心思路：定义 \(\Delta(\Theta) = \max_k |\frac{\sum_{x_i \in \mathcal{D}^{(1)}} \psi_k(x_i; \Theta)}{N_1} - \frac{\sum_{x_j \in \mathcal{D}^{(2)}} \psi_k(x_j; \Theta)}{N_2}|\)，优化目标为 \(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)
- 设计动机：Gap 比 Balance 指标数值更稳定，适合梯度优化
FMC-GD 和 FMC-EM 优化算法:
- FMC-GD：直接对 \(\ell(\Theta|\mathcal{D}; \lambda)\) 做梯度下降
- FMC-EM：修改 Q 函数加入公平惩罚 \(Q_{fair} = \mathbb{E}[\ell_{comp}(\Theta|Y)] - \lambda\Delta(\Theta)\)，用 GEM（广义 EM）保证每步 Q 函数单调递增
- 实验表明 FMC-EM 在成本-公平性权衡上更优且方差更小
小批量学习与子采样 \(\Delta\):
- 功能：解决大规模数据上的计算瓶颈
- 核心思路：对似然部分用小批量，对 \(\Delta\) 用子采样——理论证明子采样 \(\Delta\) 的近似误差为 \(O(\sqrt{d/n'})\)（Proposition 1）
- 设计动机：现有方法无法小批量学习（公平性依赖完整赋值），本文的参数化赋值映射使这一切成为可能

损失函数 / 训练策略¶

\(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)。FMC-GD：T=10000，学习率 \(10^{-3}\)。FMC-EM：T=200，内循环 R=10，学习率 \(10^{-2}\)。

实验关键数据¶

主实验¶

在 Adult、Bank、Credit 三个中等规模 UCI 数据集上比较 \(\Delta\) vs Cost 的 Pareto 前沿。FMC-EM 与 SFC、VFC、FCA 等基线方法竞争力相当，在 Credit 数据集上明显优于基线。

大规模实验（Census，245 万样本）¶

方法	时间(秒)	可行性
SFC	超时	❌
VFC	超时	❌
FCA	~3000	✅
FMC (子采样5%)	~60	✅

FMC 在 Census 数据集上比最快的基线 FCA 快约 50 倍，同时公平性和聚类成本相当。

关键发现¶

FMC-EM 优于 FMC-GD，Pareto 前沿更好且方差更小
子采样到 5% 时性能几乎无损——子采样比例从 100% 降到 5%，\(\Delta\) 和 Cost 变化微小
FMC 可直接扩展到分类数据（用多项分布替换高斯分布），现有 K-means 基方法无法做到
新数据的公平分配：FMC 学到参数化赋值映射后可直接应用于测试数据，现有方法需要重新优化

亮点与洞察¶

从赋值优化转向参数优化的视角转换很优雅——一步解决了可扩展性、小批量、新数据分配三个问题
子采样 \(\Delta\) 的理论保证（Proposition 1）使小批量学习在公平聚类中首次有理论支撑
分类数据扩展是现有公平聚类方法无法覆盖的独特优势

局限与展望¶

高斯混合模型假设数据服从特定分布，对复杂非线性流形结构可能不适用
\(\lambda\) 的选择需要人工调参来控制公平-成本权衡
仅考虑二元敏感属性的主要分析，多元扩展虽有讨论但实验较少
未与深度聚类或对比学习方法结合

评分¶

新颖性: ⭐⭐⭐⭐ 用混合模型做公平聚类的视角新颖，解决了可扩展性的核心问题
实验充分度: ⭐⭐⭐⭐ 4 个数据集+大规模验证+子采样分析，说服力强
写作质量: ⭐⭐⭐⭐ 理论推导严谨，问题动机清晰
价值: ⭐⭐⭐⭐ 首个可扩展的概率模型公平聚类，实际应用价值高