跳转至

Approximation Algorithm for Constrained k-Center Clustering: A Local Search Approach

会议: AAAI 2026
arXiv: 2601.11883
代码: https://github.com/ChaoqiJia/LSCKC
领域: 理论算法 / 聚类 / 近似算法
关键词: k-center 聚类, 约束聚类, 局部搜索, 近似比, cannot-link, must-link, dominating matching set

一句话总结

研究带 cannot-link (CL) 和 must-link (ML) 实例级约束的 k-center 聚类问题,提出基于支配匹配集(dominating matching set, DMS)转化的局部搜索框架,在不相交 CL 集条件下首次通过局部搜索达到最优近似比 2,解决了该领域一个开放问题。

研究背景与动机

k-center 是聚类和数据分析的基础理论问题:给定 n 个数据点和正整数 k,选 k 个中心使任意点到最近中心的最大距离最小化。标准 k-center 的最优近似比为 2(Gonzalez 1985; Hochbaum & Shmoys 1985),任何 \(2-\epsilon\) 近似都意味着 \(\mathcal{P}=\mathcal{NP}\)

在半监督学习和实际应用中,背景知识常以实例级约束给出: - Cannot-link (CL):两个点不能在同一簇,如冲突关系建模 - Must-link (ML):两个点必须在同一簇,如标签传播

理论困难:一般 CL 约束会导致不可近似——找到满足所有 CL 约束的聚类本身就是 NP-hard(通过 k-着色问题归约)。但 Guo et al. (2024) 发现:当 CL 集不相交时(即 CL 集互不共享点),仍可达常数因子近似比 2。然而他们使用的是反向支配集(RDS)构造,局部搜索能否在此设定下达到最优近似比 2 一直是开放问题

方法详解

整体框架

三阶段算法(Algorithm 3): 1. Stage 1(a):忽略 CL 约束,用阈值算法(Algorithm 1)找处理 ML 约束的中心集 \(C_1\) 2. Stage 1(b):为 CL 集找候选中心 \(C_2\),使 \(C_1 \cup C_2\) 覆盖所有 CL 约束点。对每个 CL 集 \(Y_i\) 构建二部图并找最大匹配,未匹配的 CL 点加入候选 3. Stage 2:对 \(C_2\) 执行局部搜索(Algorithm 2),通过增强单交换(enhanced single swap)操作缩减中心数量到 ≤k

关键设计

  1. 问题转化为 DMS:将 CL 约束表示为辅助 l-部图 \(G_\mathcal{Y}\),CL 集点为顶点,不同 CL 集间距离 ≤ η 的点对为边。在此图上定义支配匹配集(DMS)——中心集 Γ 需保证每个 CL 集 Y 中,Γ∖Y 与 Y∖Γ 之间存在阈值最大匹配,匹配大小恰好为 |Y∖Γ|
  2. 单交换自由 DMS(SF-DMS):最小 DMS 是 NP-hard 的(即使 |Y_i|=1 且点在平面上),但 SF-DMS 可多项式时间计算。SF-DMS 满足:对任意 p ∈ V 和 {u,v} ⊆ Γ,Γ∪{p}∖{u,v} 不再是 DMS——即无法通过加一个点换两个来改进
  3. 核心引理(Lemma 8):SF-DMS 的大小 |Γ| ≤ k_Y,其中 k_Y 是最优解中包含 CL 点的簇数。这保证了局部搜索终止时中心数量 ≤ k
  4. 不依赖已知 opt:通过 Lemma 11 观察到 opt 必在某对点的距离中取得,遍历候选距离值找最小可行阈值

复杂度

算法运行时间 \(O(n^2 k^{4.5})\):Stage 1(a) \(O(kn)\),Stage 1(b) \(O(nk^{3/2})\)(Hopcroft-Karp 匹配),Stage 2 局部搜索 \(O(k)\) 轮 × \(O(nk^2)\) 交换对 × \(O(nk^{1.5})\) 可行性检查。

实验关键数据

主实验:经验近似比(合成数据集 k=50)

算法 平均经验近似比 最大近似比 理论保证
Greedy_H 最高 >2
Matching_H 较高 >2
Approx (Guo et al.) 中等 <2 2-近似
LSCKC(本文) 最低 <2 2-近似

真实数据集聚类代价(k=30,不相交 CL/ML 约束)

数据集 约束比 LSCKC 代价 Approx 代价 优势
Cnae-9 2%-10% 最低 较高 约束越多优势越明显
Skin 2%-10% 最低 较高 显著优于所有基线
Covertype 2%-10% 最低 较高 稳定领先

关键发现

  • LSCKC 在所有约束比(2%-10%)和重复比(10%-50%)下均达到最低聚类代价
  • 随约束数量增加,所有算法的近似比趋于上升(可行域缩小),但 LSCKC 的增速最慢
  • 局部搜索的 swap 步骤能从非约束点中探索更好的中心——这是基线 Approx 无法做到的
  • 在交叉 CL 约束场景下(虽然理论不保证),LSCKC 仍表现出色
  • 在 Cnae-9 数据集上,约束越多 LSCKC 优势越明显——附加约束限制了 Approx 的解空间,但局部搜索可从非约束点选中心
  • 实验配置:Java 1.8.0,Apple M1 Max CPU,32GB RAM,每组设置重复至少 20 次取平均

亮点与洞察

  • 解决开放问题:首次证明局部搜索能在不相交 CL 约束的 k-center 中达到最优近似比 2,回答了 Guo et al. (2024) 留下的开放问题
  • DMS 转化的优雅性:将约束聚类转化为图上的支配匹配集,使局部搜索可以利用匹配理论工具。最小 DMS 是 NP-hard 的,但 SF-DMS 是多项式可计算的——这个"恰好够用的结构"是理论贡献的核心
  • 增强单交换:不同于标准局部搜索的 1-swap,这里是加 1 个点换 2 个点的 enhanced swap,提供了更强的搜索能力
  • 归纳证明的精巧:Lemma 8 的证明通过 Case(a) 和 Case(b) 分析最优簇的覆盖情况,利用反证法和子问题递归得到 |Γ| ≤ k_Y

局限性

  • 限于不相交 CL 集:当 CL 集有交叉(共享点)时,理论保证不成立,虽然实验表现仍好
  • 运行时间 \(O(n^2 k^{4.5})\):对大规模数据集(n 很大)可能偏慢,最大匹配计算是瓶颈
  • k-center 的本质局限:对异常值敏感(最大距离目标),实际中 k-median 或 k-means 可能更实用
  • 实验仅在 3 个 UCI 数据集 + 合成数据上验证,规模较小
  • 未探索将 DMS 框架推广到其他约束聚类变体(如 k-means with CL/ML)的可能性

相关工作

工作 约束类型 方法 近似比 k 的范围
Davidson et al. 2010 CL+ML SAT-based \((1+\epsilon)\) k=2
Brubach et al. 2021 仅 ML 2 一般 k
Guo et al. 2024 不相交 CL 反向支配集 (RDS) 2 一般 k
本文 不相交 CL + ML 局部搜索 (DMS) 2 一般 k

评分

  • 新颖性: ⭐⭐⭐⭐ 解决开放问题,DMS 转化方法新颖
  • 实验充分度: ⭐⭐⭐ 理论工作为主,实验为辅助验证
  • 写作质量: ⭐⭐⭐⭐ 问题动机和证明思路清晰
  • 价值: ⭐⭐⭐ 对理论算法社区有价值,应用面较窄