Distributed Algorithms for Euclidean Clustering¶

会议: ICLR2026
arXiv: 2603.08615
代码: 无（理论工作）
领域: others
关键词: distributed clustering, coreset, communication complexity, k-means, k-median

一句话总结¶

在分布式环境下为 Euclidean \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-coreset，在 coordinator 模型和 blackboard 模型中均达到通信复杂度的最优下界（至多差 polylog 因子）。

背景与动机¶

Euclidean \((k,z)\)-clustering 是经典的聚类问题：给定 \(n\) 个 \(d\) 维点，找 \(k\) 个中心使得所有点到最近中心的 \(z\) 次方距离之和最小。\(z=1\) 对应 \(k\)-median，\(z=2\) 对应 \(k\)-means。
现代数据集规模巨大，数据天然分布在多台机器上，无法集中处理。分布式聚类成为核心需求：\(n\) 个点分布在 \(s\) 台机器上，各机器通过交换简短摘要（coreset）来协作完成聚类，同时最小化通信量。
已有的分布式方法（如 merge-and-reduce）通信量中 \(s\)、\(d\)、\(1/\varepsilon\) 等因子互相耦合（如 \(\tilde{O}(skd/\varepsilon^4 \cdot \log(n\Delta))\)），远未达到已知的通信下界。
核心动机：能否设计通信最优的协议，使得 \(s\)（机器数）、\(d\)（维度）、\(1/\varepsilon\)（精度）之间解耦，达到理论下界？

核心问题¶

在两种经典分布式通信模型中，为 \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-strong coreset，同时达到通信复杂度最优：

Coordinator 模型：\(s\) 台机器只能通过一个 coordinator 中继通信，使用私有信道和私有随机性。
Blackboard 模型：\(s\) 台机器通过共享黑板通信，任何机器写入的消息对所有机器可见。

方法详解¶

整体思路¶

协议分为两步：(1) 先获得常数近似解；(2) 再通过 sensitivity sampling 升级到 \((1+\varepsilon)\)-coreset。关键创新在于每一步都大幅降低通信量。

Blackboard 模型中的常数近似¶

已有的 adaptive sampling（类似 \(k\)-means++）要求每轮采样后所有 \(s\) 台机器都上报其距离和 \(D_i\)，通信量为 \(O(sk\log n)\)，过于昂贵。
Lazy Sampling：黑板上只保存各机器距离和的近似值 \(\widehat{D_i}\)，按 \(\widehat{D_i}\) 的比例选机器采样。如果 \(\widehat{D_i}\) 是 \(D_i\) 的常数近似，采样失败概率为常数，总采样轮次仍为 \(O(k)\)。
采样失败时，说明 \(D_i\) 已大幅减小，此时机器 \(i\) 更新黑板上的值。每台机器最多更新 \(O(\log n)\) 次，每次只需传 \(O(\log\log n)\) 比特（传指数即可）。
\(L_1\) Sampling 加速：不需要每轮让所有机器报告，而是随机选择一台机器 \(i\)（概率正比于 \(\widehat{D_i}\)），通过 \(D_i/p_i\) 的均值估计全局总权重 \(\sum D_i\) 是否下降超过 \(1/64\)，从而决定是否需要全局更新。
指数增长批采样：在全局权重未显著下降时，一次性采 \(2^i\) 个样本（\(i\) 逐步递增），将通信轮次降至 \(O(\log n \log k)\)。

Coordinator 模型中的关键创新¶

Coordinate-wise Sampling：不传完整的高维中心点，而是在 coordinator 和某台机器之间对排序后的坐标做分布式二分搜索，只传输一个小偏移量。这使得通信量与维度 \(d\) 解耦。
Coordinate-wise Sensitivity Sampling：将每个点按坐标分解，根据各维度的重要性采样维度。coordinator 发送紧凑摘要，各机器仅在需要时请求额外信息。
重构出的样本可能不对应数据集中任何真实点，但论文证明聚类代价的失真可控。

\((1+\varepsilon)\)-Coreset 构造¶

利用常数近似解 \(C'\) 计算每个点的 sensitivity \(\mu(x)\)，按 sensitivity 分布采样 \(\tilde{O}(k/\min(\varepsilon^4, \varepsilon^{2+z}))\) 个点。
Compact Encoding：每个采样点表示为 \((c'(x), y)\)，其中 \(c'(x)\) 是最近中心的索引，\(y\) 是残差向量各坐标取对数后的指数。每个点仅需 \(O(\log k + d\log(1/\varepsilon, d, \log(n\Delta)))\) 比特。

主要定理¶

Theorem 1.1 (Coordinator 模型)：总通信量 \(\tilde{O}(sk + dk/\min(\varepsilon^4, \varepsilon^{2+z}) + dk\log(n\Delta))\) 比特。

Theorem 1.2 (Blackboard 模型)：总通信量 \(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\min(\varepsilon^4, \varepsilon^{2+z}))\) 比特。

两者均匹配已知下界（至多差 polylog 因子）。

实验关键数据¶

本文为纯理论工作，无实验部分。主要贡献是通信复杂度的理论上界证明及与已知下界的匹配。

模型	已有最优	本文结果	改进
Coordinator	\(O(skd/\varepsilon^4 \cdot \log(n\Delta))\)	\(\tilde{O}(sk + dk/\varepsilon^4 + dk\log(n\Delta))\)	\(s,d,1/\varepsilon\) 解耦，去掉乘法关系
Blackboard	\(\tilde{O}((s+dk)\log^2(n\Delta))\)（仅常数近似）	\(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\varepsilon^4)\)	从常数近似升级到 \((1+\varepsilon)\) 且去掉多余 \(\log\) 因子

亮点¶

通信量达到最优下界：在两种分布式模型中均匹配 [Chen et al., NeurIPS 2016] 和 [Huang et al., STOC 2024] 的下界，是理论意义上的完全解决。
参数解耦：Coordinator 模型中 \(s\)（机器数）不再乘以 \(d\)（维度）和 \(1/\varepsilon\)（精度），Blackboard 模型中 \(1/\varepsilon\) 不乘以 \(\log(n\Delta)\)。
无需"明文"传输坐标：coordinator 模型中不需要任何站点广播完整的点坐标给所有机器，这是一个意外且重要的结果。
Lazy Sampling + \(L_1\) Sampling：分布式 adaptive sampling 的优雅变体，避免每轮全局通信。
Coordinate-wise Sensitivity Sampling 是新技术，可能对分布式回归和低秩近似等问题也有价值。
结果可推广到任意连通通信拓扑，不限于 coordinator 或 blackboard。

局限性 / 可改进方向¶

纯理论工作：没有实验验证实际通信量和运行时间的改善，尤其是 polylog 因子在实际中可能不小。
通信轮次：Blackboard 模型中虽然通信比特数最优，但轮次为 \(O(\log n \log k)\)，在延迟敏感的场景中可能不理想。
\(\varepsilon\) 为常数时退化：当 \(\varepsilon\) 为常数时，\(1/\varepsilon^4\) 项退化为常数，此时通信量主导项变为 \(dk\log(n\Delta)\)（传输中心坐标本身），无法进一步优化。
假设有限精度网格：输入点需在 \(\{1,\ldots,\Delta\}^d\) 网格上，实际连续数据需要额外的离散化步骤。
仅针对欧氏空间：非欧氏度量或非聚类代价函数不在本文讨论范围内。

与相关工作的对比¶

工作	近似比	通信量	备注
Merge-and-reduce + [BCP+24]	\((1+\varepsilon)\)	\(\tilde{O}(skd/\varepsilon^4 \cdot \log(n\Delta))\)	参数耦合
[BEL13] + [BCP+24]	\((1+\varepsilon)\)	\(O(dk/\varepsilon^4 \cdot \log(n\Delta) + sdk\log(sk)\log(n\Delta))\)	\(s\) 仍乘以 \(dk\)
[CSWZ16] (Blackboard)	\(O(1)\)	\(\tilde{O}((s+dk)\log^2(n\Delta))\)	仅常数近似
本文 (Coordinator)	\((1+\varepsilon)\)	\(\tilde{O}(sk + dk/\varepsilon^4 + dk\log(n\Delta))\)	最优
本文 (Blackboard)	\((1+\varepsilon)\)	\(\tilde{O}(s\log(n\Delta) + dk\log(n\Delta) + dk/\varepsilon^4)\)	最优

启发与关联¶

分布式算法 + Coreset 的组合范式：先用低通信量获得常数近似，再通过 sensitivity sampling 升级精度。这个两步框架对其他分布式优化问题（如低秩近似、回归）可能有迁移价值。
Lazy Sampling 的思想（容忍过时信息、仅在偏差超阈值时更新）类似于分布式系统中的 eventual consistency，可应用于分布式 SGD 中的梯度压缩。
Coordinate-wise Sampling 将高维通信问题拆解为逐坐标的低维问题，类似于 quantization 和 sparsification 在联邦学习中的应用。
论文作者明确指出这些技术与 LLM 训练中的数据量化和通信压缩有天然联系。

评分¶

新颖性: ⭐⭐⭐⭐⭐ (解决了分布式聚类通信最优性的开放问题)
实验充分度: ⭐⭐ (纯理论无实验)
写作质量: ⭐⭐⭐⭐ (结构清晰，技术概览部分讲解透彻)
价值: ⭐⭐⭐⭐ (理论上完全解决问题，技术手段有迁移潜力)