跳转至

Fair Model-Based Clustering

会议: AAAI 2026
arXiv: 2602.21509
代码: 无
领域: AI安全/公平性
关键词: 公平聚类, 有限混合模型, EM算法, 小批量学习, 可扩展性

一句话总结

提出基于有限混合模型的公平聚类算法 FMC,通过在模型参数(而非样本级赋值)上施加公平性约束,实现参数量与样本量无关的可扩展公平聚类,支持小批量学习和分类数据,在大规模数据集上显著优于现有方法。

研究背景与动机

领域现状:公平聚类要求每个簇中敏感属性(如性别、种族)的比例与整体数据集相似。现有方法大多基于 K-means 聚类,在公平约束下同时优化簇中心和赋值映射。

现有痛点: - 每个样本的簇赋值需要与簇中心同时优化→可学习参数数量与样本量 \(N\) 成正比→大规模数据难以扩展 - 公平约束依赖于完整数据集的赋值→小批量学习不可行(通常的加速手段失效) - 基于 K-means 需要度量空间→无法处理分类数据等非度量数据 - 训练完成后赋值映射仅定义在训练数据上→新数据公平分配困难

核心矛盾:如何使公平聚类算法的计算复杂度与样本量解耦,同时保持公平性保证?

本文目标 开发参数量独立于样本量的可扩展公平聚类算法。

切入角度:用概率混合模型替代几何距离,将公平约束从赋值映射转移到模型参数上——参数化的赋值映射天然支持小批量和新数据分配。

核心 idea:基于有限混合模型的公平聚类,通过在模型参数上施加 Gap 约束实现参数量与 \(N\) 无关的可扩展性。

方法详解

整体框架

输入为带敏感属性的数据集和簇数 \(K\),输出为公平的概率赋值映射。假设数据由 \(K\) 个混合成分生成:\(X \sim \sum_{k=1}^K \pi_k f(\cdot; \theta_k)\)。通过最大化带公平约束的对数似然来估计参数 \(\Theta = (\boldsymbol{\pi}, (\theta_1, ..., \theta_K))\)

关键设计

  1. 参数化赋值映射:

    • 功能:用混合模型的后验概率作为软赋值映射
    • 核心思路:\(\psi_k(x_i; \Theta) = \frac{\pi_k f(x_i; \theta_k)}{\sum_l \pi_l f(x_i; \theta_l)}\)
    • 设计动机:赋值映射由模型参数 \(\Theta\) 完全决定,参数量(\(K\) 个均值+协方差+混合权重)与 \(N\) 无关
  2. Gap 公平约束:

    • 功能:确保每个簇中各敏感群体的比例接近
    • 核心思路:定义 \(\Delta(\Theta) = \max_k |\frac{\sum_{x_i \in \mathcal{D}^{(1)}} \psi_k(x_i; \Theta)}{N_1} - \frac{\sum_{x_j \in \mathcal{D}^{(2)}} \psi_k(x_j; \Theta)}{N_2}|\),优化目标为 \(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)
    • 设计动机:Gap 比 Balance 指标数值更稳定,适合梯度优化
  3. FMC-GD 和 FMC-EM 优化算法:

    • FMC-GD:直接对 \(\ell(\Theta|\mathcal{D}; \lambda)\) 做梯度下降
    • FMC-EM:修改 Q 函数加入公平惩罚 \(Q_{fair} = \mathbb{E}[\ell_{comp}(\Theta|Y)] - \lambda\Delta(\Theta)\),用 GEM(广义 EM)保证每步 Q 函数单调递增
    • 实验表明 FMC-EM 在成本-公平性权衡上更优且方差更小
  4. 小批量学习与子采样 \(\Delta\):

    • 功能:解决大规模数据上的计算瓶颈
    • 核心思路:对似然部分用小批量,对 \(\Delta\) 用子采样——理论证明子采样 \(\Delta\) 的近似误差为 \(O(\sqrt{d/n'})\)(Proposition 1)
    • 设计动机:现有方法无法小批量学习(公平性依赖完整赋值),本文的参数化赋值映射使这一切成为可能

损失函数 / 训练策略

\(\max_\Theta \ell(\Theta | \mathcal{D}) - \lambda \Delta(\Theta)\)。FMC-GD:T=10000,学习率 \(10^{-3}\)。FMC-EM:T=200,内循环 R=10,学习率 \(10^{-2}\)

实验关键数据

主实验

在 Adult、Bank、Credit 三个中等规模 UCI 数据集上比较 \(\Delta\) vs Cost 的 Pareto 前沿。FMC-EM 与 SFC、VFC、FCA 等基线方法竞争力相当,在 Credit 数据集上明显优于基线。

大规模实验(Census,245 万样本)

方法 时间(秒) 可行性
SFC 超时
VFC 超时
FCA ~3000
FMC (子采样5%) ~60

FMC 在 Census 数据集上比最快的基线 FCA 快约 50 倍,同时公平性和聚类成本相当。

关键发现

  • FMC-EM 优于 FMC-GD,Pareto 前沿更好且方差更小
  • 子采样到 5% 时性能几乎无损——子采样比例从 100% 降到 5%,\(\Delta\) 和 Cost 变化微小
  • FMC 可直接扩展到分类数据(用多项分布替换高斯分布),现有 K-means 基方法无法做到
  • 新数据的公平分配:FMC 学到参数化赋值映射后可直接应用于测试数据,现有方法需要重新优化

亮点与洞察

  • 从赋值优化转向参数优化的视角转换很优雅——一步解决了可扩展性、小批量、新数据分配三个问题
  • 子采样 \(\Delta\) 的理论保证(Proposition 1)使小批量学习在公平聚类中首次有理论支撑
  • 分类数据扩展是现有公平聚类方法无法覆盖的独特优势

局限与展望

  • 高斯混合模型假设数据服从特定分布,对复杂非线性流形结构可能不适用
  • \(\lambda\) 的选择需要人工调参来控制公平-成本权衡
  • 仅考虑二元敏感属性的主要分析,多元扩展虽有讨论但实验较少
  • 未与深度聚类或对比学习方法结合

相关工作与启发

  • vs SFC (fairlet):SFC 预处理做 fairlet 分解,计算复杂度高,大规模数据超时;FMC 参数化方法天然可扩展
  • vs VFC:VFC 用 KL 散度做变分公平约束,同样不支持小批量;FMC 的子采样策略解决这一问题
  • vs FCA:FCA 是最新 SOTA,在中等数据上各有优劣,但大规模上 FMC 远快于 FCA

评分

  • 新颖性: ⭐⭐⭐⭐ 用混合模型做公平聚类的视角新颖,解决了可扩展性的核心问题
  • 实验充分度: ⭐⭐⭐⭐ 4 个数据集+大规模验证+子采样分析,说服力强
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨,问题动机清晰
  • 价值: ⭐⭐⭐⭐ 首个可扩展的概率模型公平聚类,实际应用价值高

相关论文