Accelerating Spectral Clustering under Fairness Constraints¶

会议: ICML 2025
arXiv: 2506.08143
代码: 无
领域: AI安全
关键词: 公平聚类, 谱聚类, DC优化, ADMM, 公平性约束

一句话总结¶

将公平谱聚类（Fair SC）问题转化为凸差分（DC）优化框架，通过变量增广策略和 ADMM 类型算法，避免了昂贵的特征分解计算，在大规模问题上实现显著加速。

领域现状：算法决策系统在医疗、教育等关键领域的广泛应用引发公平性担忧。公平聚类要求各人口群组在每个簇中的比例与总体一致。

现有痛点：Kleindessner et al. (2019) 将公平性约束引入谱聚类，但依赖计算昂贵的公平约束图拉普拉斯矩阵的特征分解，限制了在大规模数据上的应用。Wang et al. (2023) 有所改进但仍需特征分解。

核心矛盾：特征分解的计算复杂度为 \(O(n^3)\)，随数据量增长不可扩展。

本文目标：如何在保持公平性约束的同时高效求解谱聚类？

切入角度：谱聚类本质上是带正交约束的迹最大化问题，可自然嵌入 DC 框架——公平性约束通过变量增广整合进 ADMM。

核心 idea：用 DC-ADMM 替代特征分解，每个子问题可用快速梯度法求解。

DC 问题转化:
- 功能：将 Fair SC 的迹最大化+公平约束转化为凸差分优化
- 核心思路：\(\max \text{tr}(X^T L X)\) s.t. \(X^T X = I\), 公平约束 → DC 形式通过将正交约束编码为罚项
- 设计动机：DC 框架有成熟的优化工具，避免特征分解
变量增广 + ADMM:
- 功能：引入辅助变量将不同约束分配到不同子问题
- 核心思路：\(X\)（聚类指示）和 \(Y\)（公平性投影）分离，ADMM 交替更新
- 设计动机：每个子问题都可以高效求解——无需全矩阵特征分解

不同数据规模下的计算时间对比：

数据集	n	Fair SC (原始)	Wang et al.	本文	加速比
合成数据	1K	2.1s	0.8s	0.3s	7×
合成数据	10K	210s	85s	12s	17×
Bank	45K	>1h	1800s	180s	~10×