跳转至

Distributed Algorithms for Euclidean Clustering

会议: ICLR2026
arXiv: 2603.08615
代码: 无(理论工作)
领域: others
关键词: distributed clustering, coreset, communication complexity, k-means, k-median

一句话总结

在分布式环境下为 Euclidean \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-coreset,在 coordinator 模型和 blackboard 模型中均达到通信复杂度的最优下界(至多差 polylog 因子)。

背景与动机

  • Euclidean \((k,z)\)-clustering 是经典的聚类问题:给定 \(n\)\(d\) 维点,找 \(k\) 个中心使得所有点到最近中心的 \(z\) 次方距离之和最小。\(z=1\) 对应 \(k\)-median,\(z=2\) 对应 \(k\)-means。
  • 现代数据集规模巨大,数据天然分布在多台机器上,无法集中处理。分布式聚类成为核心需求:\(n\) 个点分布在 \(s\) 台机器上,各机器通过交换简短摘要(coreset)来协作完成聚类,同时最小化通信量。
  • 已有的分布式方法(如 merge-and-reduce)通信量中 \(s\)\(d\)\(1/\varepsilon\) 等因子互相耦合(如 \(\tilde{O}(skd/\varepsilon^4 \cdot \log(n\Delta))\)),远未达到已知的通信下界。
  • 核心动机:能否设计通信最优的协议,使得 \(s\)(机器数)、\(d\)(维度)、\(1/\varepsilon\)(精度)之间解耦,达到理论下界?

核心问题

在两种经典分布式通信模型中,为 \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-strong coreset,同时达到通信复杂度最优:

  1. Coordinator 模型\(s\) 台机器只能通过一个 coordinator 中继通信,使用私有信道和私有随机性。
  2. Blackboard 模型\(s\) 台机器通过共享黑板通信,任何机器写入的消息对所有机器可见。

方法详解

整体思路

协议分为两步:(1) 先获得常数近似解;(2) 再通过 sensitivity sampling 升级到 \((1+\varepsilon)\)-coreset。关键创新在于每一步都大幅降低通信量。

Blackboard 模型中的常数近似

  • 已有的 adaptive sampling(类似 \(k\)-means++)要求每轮采样后所有 \(s\) 台机器都上报其距离和 \(D_i\),通信量为 \(O(sk\log n)\),过于昂贵。
  • Lazy Sampling:黑板上只保存各机器距离和的近似值 \(\widehat{D_i}\),按 \(\widehat{D_i}\) 的比例选机器采样。如果 \(\widehat{D_i}\)\(D_i\) 的常数近似,采样失败概率为常数,总采样轮次仍为 \(O(k)\)
  • 采样失败时,说明 \(D_i\) 已大幅减小,此时机器 \(i\) 更新黑板上的值。每台机器最多更新 \(O(\log n)\) 次,每次只需传 \(O(\log\log n)\) 比特(传指数即可)。
  • \(L_1\) Sampling 加速:不需要每轮让所有机器报告,而是随机选择一台机器 \(i\)(概率正比于 \(\widehat{D_i}\)),通过 \(D_i/p_i\) 的均值估计全局总权重 \(\sum D_i\) 是否下降超过 \(1/64\),从而决定是否需要全局更新。
  • 指数增长批采样:在全局权重未显著下降时,一次性采 \(2^i\) 个样本(\(i\) 逐步递增),将通信轮次降至 \(O(\log n \log k)\)

Coordinator 模型中的关键创新

  • Coordinate-wise Sampling:不传完整的高维中心点,而是在 coordinator 和某台机器之间对排序后的坐标做分布式二分搜索,只传输一个小偏移量。这使得通信量与维度 \(d\) 解耦。
  • Coordinate-wise Sensitivity Sampling:将每个点按坐标分解,根据各维度的重要性采样维度。coordinator 发送紧凑摘要,各机器仅在需要时请求额外信息。
  • 重构出的样本可能不对应数据集中任何真实点,但论文证明聚类代价的失真可控。

\((1+\varepsilon)\)-Coreset 构造

  • 利用常数近似解 \(C'\) 计算每个点的 sensitivity \(\mu(x)\),按 sensitivity 分布采样 \(\tilde{O}(k/\min(\varepsilon^4, \varepsilon^{2+z}))\) 个点。
  • Compact Encoding:每个采样点表示为 \((c'(x), y)\),其中 \(c'(x)\) 是最近中心的索引,\(y\) 是残差向量各坐标取对数后的指数。每个点仅需 \(O(\log k + d\log(1/\varepsilon, d, \log(n\Delta)))\) 比特。

主要定理

Theorem 1.1 (Coordinator 模型):总通信量 \(\tilde{O}(sk + dk/\min(\varepsilon^4, \varepsilon^{2+z}) + dk\log(n\Delta))\) 比特。

Theorem 1.2 (Blackboard 模型):总通信量 \(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\min(\varepsilon^4, \varepsilon^{2+z}))\) 比特。

两者均匹配已知下界(至多差 polylog 因子)。

实验关键数据

本文为纯理论工作,无实验部分。主要贡献是通信复杂度的理论上界证明及与已知下界的匹配。

模型 已有最优 本文结果 改进
Coordinator \(O(skd/\varepsilon^4 \cdot \log(n\Delta))\) \(\tilde{O}(sk + dk/\varepsilon^4 + dk\log(n\Delta))\) \(s,d,1/\varepsilon\) 解耦,去掉乘法关系
Blackboard \(\tilde{O}((s+dk)\log^2(n\Delta))\)(仅常数近似) \(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\varepsilon^4)\) 从常数近似升级到 \((1+\varepsilon)\) 且去掉多余 \(\log\) 因子

亮点

  • 通信量达到最优下界:在两种分布式模型中均匹配 [Chen et al., NeurIPS 2016] 和 [Huang et al., STOC 2024] 的下界,是理论意义上的完全解决。
  • 参数解耦:Coordinator 模型中 \(s\)(机器数)不再乘以 \(d\)(维度)和 \(1/\varepsilon\)(精度),Blackboard 模型中 \(1/\varepsilon\) 不乘以 \(\log(n\Delta)\)
  • 无需"明文"传输坐标:coordinator 模型中不需要任何站点广播完整的点坐标给所有机器,这是一个意外且重要的结果。
  • Lazy Sampling + \(L_1\) Sampling:分布式 adaptive sampling 的优雅变体,避免每轮全局通信。
  • Coordinate-wise Sensitivity Sampling 是新技术,可能对分布式回归和低秩近似等问题也有价值。
  • 结果可推广到任意连通通信拓扑,不限于 coordinator 或 blackboard。

局限性 / 可改进方向

  • 纯理论工作:没有实验验证实际通信量和运行时间的改善,尤其是 polylog 因子在实际中可能不小。
  • 通信轮次:Blackboard 模型中虽然通信比特数最优,但轮次为 \(O(\log n \log k)\),在延迟敏感的场景中可能不理想。
  • \(\varepsilon\) 为常数时退化:当 \(\varepsilon\) 为常数时,\(1/\varepsilon^4\) 项退化为常数,此时通信量主导项变为 \(dk\log(n\Delta)\)(传输中心坐标本身),无法进一步优化。
  • 假设有限精度网格:输入点需在 \(\{1,\ldots,\Delta\}^d\) 网格上,实际连续数据需要额外的离散化步骤。
  • 仅针对欧氏空间:非欧氏度量或非聚类代价函数不在本文讨论范围内。

与相关工作的对比

工作 近似比 通信量 备注
Merge-and-reduce + [BCP+24] \((1+\varepsilon)\) \(\tilde{O}(skd/\varepsilon^4 \cdot \log(n\Delta))\) 参数耦合
[BEL13] + [BCP+24] \((1+\varepsilon)\) \(O(dk/\varepsilon^4 \cdot \log(n\Delta) + sdk\log(sk)\log(n\Delta))\) \(s\) 仍乘以 \(dk\)
[CSWZ16] (Blackboard) \(O(1)\) \(\tilde{O}((s+dk)\log^2(n\Delta))\) 仅常数近似
本文 (Coordinator) \((1+\varepsilon)\) \(\tilde{O}(sk + dk/\varepsilon^4 + dk\log(n\Delta))\) 最优
本文 (Blackboard) \((1+\varepsilon)\) \(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\varepsilon^4)\) 最优

启发与关联

  • 分布式算法 + Coreset 的组合范式:先用低通信量获得常数近似,再通过 sensitivity sampling 升级精度。这个两步框架对其他分布式优化问题(如低秩近似、回归)可能有迁移价值。
  • Lazy Sampling 的思想(容忍过时信息、仅在偏差超阈值时更新)类似于分布式系统中的 eventual consistency,可应用于分布式 SGD 中的梯度压缩。
  • Coordinate-wise Sampling 将高维通信问题拆解为逐坐标的低维问题,类似于 quantization 和 sparsification 在联邦学习中的应用。
  • 论文作者明确指出这些技术与 LLM 训练中的数据量化和通信压缩有天然联系。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (解决了分布式聚类通信最优性的开放问题)
  • 实验充分度: ⭐⭐ (纯理论无实验)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,技术概览部分讲解透彻)
  • 价值: ⭐⭐⭐⭐ (理论上完全解决问题,技术手段有迁移潜力)