跳转至

Exploiting Similarity for Computation and Communication-Efficient Decentralized Optimization

会议: ICML2025
arXiv: 2506.05791
代码: 无
领域: others (去中心化优化 / 分布式学习)
关键词: 去中心化优化, 近端点方法, SPDO, 通信复杂度, 函数相似性

一句话总结

提出 Stabilized Proximal Decentralized Optimization (SPDO) 方法及其加速版本,在近端去中心化优化框架下同时实现最优的通信和计算复杂度——通过稳定化投影技术放松子问题精度要求(从随迭代递增变为恒定),并用平均函数相似性 \(\delta\) 替代最大相似性 \(\delta_{\max}\) 来降低通信开销。

研究背景与动机

领域现状:去中心化优化是分布式机器学习的核心范式——\(n\) 个节点各持有局部损失函数 \(f_i\),通过网络拓扑仅与邻居交换参数,共同最小化平均损失 \(f(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)\)。降低通信复杂度是首要目标,因为节点间参数交换的延迟和带宽远比本地计算昂贵。

现有痛点: - 多步本地更新的困境:Decentralized Gradient Descent 和 Gradient Tracking 尝试用多步本地更新减少通信,但增加本地步数需要缩小学习率,最终通信开销不变——因为本地目标与全局目标不一致。 - PDO 框架的计算瓶颈:SONATA 等近端去中心化方法可利用函数相似性降低通信,但要求精确求解近端子问题(不可行),或随迭代次数增加要求越来越高的子问题精度,导致计算开销次优。 - 依赖最大相似性:已有分析依赖 \(\delta_{\max}\)(最大节点不相似度),但平均不相似度 \(\delta\) 可小至 \(\delta_{\max}/\sqrt{n}\),未被充分利用。

核心矛盾:如何在保持低通信复杂度的同时,也实现低计算复杂度?已有方法在两者之间存在权衡——精确子问题通信少但计算多,粗略子问题计算少但通信可能增加。

本文目标:能否设计一种近端去中心化方法,同时在通信和计算复杂度上达到最优?

切入角度:作者观察到标准 Hybrid Projection Proximal-point Method 直接应用到去中心化场景时不收敛——因为精确求解时辅助变量 \(v_i\) 与迭代变量 \(x_i\) 不一致。通过加入"稳定化项"(在投影步中加入梯度跟踪向量 \(h_i\)),保证精确求解时 SPDO 退化为标准 PDO,实现了一致性。

核心 idea:在近端投影步中加入稳定化项,使子问题精度要求从"随迭代增加"变为"恒定",同时将通信复杂度从依赖 \(\delta_{\max}\) 改进为依赖 \(\delta\)

方法详解

整体框架

SPDO 遵循"局部子问题求解 + 邻居通信平均"的迭代范式:

  • 输入:节点数 \(n\),局部损失 \(\{f_i\}\),网络权重 \(W\),超参数 \(\lambda, M\)
  • 每轮迭代
  • 各节点近似求解局部子问题(本地计算)
  • 更新辅助变量 \(v_i\)(稳定化投影步,闭式解)
  • 多步 Gossip 平均(邻居通信)更新 \(v_i\) 和梯度跟踪变量 \(h_i\)
  • 输出:所有节点参数的平均 \(\bar{x}^{(R)}\) 趋向全局最优

关键设计

  1. 稳定化投影步 (Stabilized Projection Step)

    • 功能:在子问题近似求解后,计算一个辅助变量 \(v_i^{(r+1/2)}\) 作为通信和梯度跟踪的锚点
    • 核心思路:关键更新为 \(v_i^{(r+1/2)} = \arg\min_v \{\langle \nabla f_i(x_i^{(r+1)}) + h_i^{(r)}, v\rangle + \frac{\mu}{2}\|v - x_i^{(r+1)}\|^2 + \frac{\lambda}{2}\|v - v_i^{(r)}\|^2\}\),有闭式解 \(v_i^{(r+1/2)} = \frac{1}{\mu+\lambda}(\mu x_i^{(r+1)} + \lambda v_i^{(r)} - \nabla f_i(x_i^{(r+1)}) - h_i^{(r)})\)。相比朴素的 Hybrid Projection,加入的 \(+h_i^{(r)}\) 项(蓝色高亮)是稳定化的关键
    • 设计动机:朴素的 Hybrid Projection Proximal-point 在去中心化场景下不收敛,因为精确求解子问题时 \(v_i \neq x_i\)。加入 \(h_i^{(r)}\) 后,精确求解时 SPDO 退化为标准 PDO(\(v_i = x_i\)),保证了算法的一致性。这使得子问题精度要求从 PDO 的 \(O(1/(r+1)(r+2))\)(随迭代衰减)放松为 SPDO 的恒定 \(\lambda^2/10\)
  2. 利用平均函数相似性 \(\delta\)

    • 功能:将通信复杂度的依赖从 \(\delta_{\max}\) 降低到 \(\delta\)
    • 核心思路:定义平均二阶相似性 \(\frac{1}{n}\sum_{i=1}^n \|\nabla h_i(x) - \nabla h_i(y)\|^2 \leq \delta^2 \|x-y\|^2\),其中 \(h_i = f - f_i\)。这比最大相似性 \(\delta_{\max} = \max_i \|\nabla^2 f - \nabla^2 f_i\|\) 更细粒度,且 \(\delta \leq \delta_{\max}\),最多可小 \(\sqrt{n}\) 倍。对应的 Gossip 轮数 \(M \geq \frac{1}{1-\rho}\log(\frac{6L}{\delta})\) 替代了原来依赖 \(\delta_{\max}\) 的版本
    • 设计动机:当节点数据相似时 \(\delta \ll \delta_{\max}\),这意味着 SPDO 在同构场景下可大幅减少通信。这是首次在 PDO 框架中使用平均相似性进行分析
  3. Monteiro-Svaiter 加速 (Accelerated-SPDO)

    • 功能:通过加速近端点方法和加速 Gossip 平均,进一步降低通信和计算复杂度
    • 核心思路:引入加速序列 \(\{A_r, B_r, a_r\}\) 和动量插值 \(y_i^{(r)} = \frac{A_r x_i^{(r)} + a_{r+1} v_i^{(r)}}{A_{r+1}}\),结合 Fast Gossip Averaging(带动量的 Chebyshev 加速 Gossip)。强凸情况下通信复杂度达到 \(\tilde{O}(\sqrt{\delta/(\mu(1-\rho))} \log(1/\epsilon))\),计算复杂度达到 \(\tilde{O}(\sqrt{L/\mu} \log(1/\epsilon))\)
    • 设计动机:非加速 SPDO 的通信复杂度为 \(\tilde{O}(\delta/(\mu(1-\rho)) \log(1/\epsilon))\),加速后对 \(\delta/\mu\) 取平方根,在 \(\delta \gg \mu\) 时改进显著。加速 Gossip(二阶 Chebyshev 迭代)将每轮的通信步数从 \(O(1/(1-\rho))\) 降到 \(O(1/\sqrt{1-\rho})\)

损失函数 / 训练策略

每轮局部子问题:\(\min_x F_{i,r}(x) := f_i(x) + \langle h_i^{(r)}, x\rangle + \frac{\lambda}{2}\|x - v_i^{(r)}\|^2\),使用 Nesterov 加速梯度下降求解。SPDO 设 \(\lambda = 20\delta\)(非加速)或 \(\lambda = 96\delta\)(加速)。子问题精度要求为恒定的 \(\|\nabla F_{i,r}(x_i^{(r+1)})\|^2 \leq \frac{\lambda^2}{10}\|v_i^{(r)} - x_i^{(r+1)}\|^2\),无需随迭代收紧。

实验关键数据

主实验:MNIST + 逻辑回归

在 25 节点环形拓扑、Dirichlet 分布数据划分下,比较 2000 轮通信后的梯度范数。

方法 通信复杂度 计算复杂度 实际收敛
Gradient Tracking \(O(L/(\mu(1-\rho)^2))\) 同通信 不受相似度影响
Inexact-PDO \(\tilde{O}(\delta/(\mu(1-\rho)))\) \(\tilde{O}(\sqrt{\delta L}/\mu \log\log)\) 后期子问题精度不足导致停滞
SPDO \(\tilde{O}(\delta/(\mu(1-\rho)))\) \(\tilde{O}(\sqrt{\delta L}/\mu)\) 通信=PDO,计算更优
Accel-SPDO \(\tilde{O}(\sqrt{\delta/(\mu(1-\rho))})\) \(\tilde{O}(\sqrt{L/\mu})\) 通信和计算均最优

消融实验:相似度 \(\delta\) 的影响

Dirichlet \(\alpha\) 相似度 \(\delta\) Gradient Tracking SPDO
\(\alpha\)(异构) 梯度范数 ~\(10^{-2}\) 梯度范数 ~\(10^{-3}\)
\(\alpha\)(同构) 梯度范数 ~\(10^{-2}\) 梯度范数 ~\(10^{-6}\)(大幅改善)

关键发现

  • SPDO 完胜 Inexact-PDO:固定 10 步梯度下降求解子问题时,Inexact-PDO 后期因精度不足而通信开销增加(Eq.(8) 不满足),SPDO 无此问题
  • Accelerated-SPDO 双重最优:在强凸和凸两种设定下,通信和计算复杂度均为已知最优
  • 数据越相似优势越大:Gradient Tracking 的通信复杂度与 \(\delta\) 无关,而 SPDO 的通信复杂度与 \(\delta\) 成正比/平方根,因此在同构场景下优势极为显著

亮点与洞察

  • 稳定化的精妙设计:朴素地将 Hybrid Projection 搬到去中心化场景会失败,因为精确求解时辅助变量和迭代变量不一致。只需在投影目标中加入一个线性项 \(\langle h_i^{(r)}, v\rangle\) 就恢复了一致性——改动极小但效果关键,是典型的"四两拨千斤"设计。
  • 恒定精度是核心突破:PDO 的子问题精度要求 \(O(1/r^2)\) 意味着后期需要越来越多的内迭代,这是计算瓶颈的根源。SPDO 将精度要求变为恒定,使得计算复杂度多出个 \(\log\log\) 甚至消除了 \(\log\) 因子,是实质性的理论改进。
  • 统一的凸和强凸分析:此前 SONATA 及其加速版本仅分析了强凸情况,本文首次给出了凸情况下的收敛率,扩展了方法的适用范围。

局限与展望

  • 仅考虑确定性设定:所有结果基于全梯度,未涉及随机梯度 (SGD) 场景。实际大规模训练中数据太大无法每步计算全梯度,将 SPDO 扩展到随机设定是重要方向。
  • 实验规模有限:仅在 MNIST + 逻辑回归 + 25 节点的小规模设定上验证,未涉及深度神经网络或更大规模的分布式训练场景。
  • 超参数选择\(\lambda\) 的选择(\(4\delta, 20\delta, 96\delta\) 等)依赖于事先知道 \(\delta\)\(L\),实际中这些量通常未知。自适应选择 \(\lambda\) 的方法未被讨论。
  • 网络拓扑限制:实验仅使用环形拓扑(谱间隙 \(\rho\) 接近 1),而 SPDO 的优势在密集图上更显著。在实际异构网络拓扑上的表现有待验证。

相关工作与启发

  • vs SONATA (Sun et al., 2022):SONATA 是 PDO 的精确版本,要求精确求解子问题(不可行),且通信复杂度依赖 \(\delta_{\max}\)。本文将依赖从 \(\delta_{\max}\) 改进到 \(\delta\)(至多 \(\sqrt{n}\) 倍改进),并首次给出了非精确版本的可行方案。
  • vs Accelerated SONATA (Tian et al., 2022):加速版 SONATA 假设强凸且 \(\mu \leq \delta_{\max}\),计算复杂度包含 \((\log(1/\epsilon))^2\) 项。Accelerated-SPDO 去掉了一个 \(\log\) 因子,且给出了凸情况分析。
  • vs S-DANE (Jiang et al., 2024b):SPDO 在完全图上退化为 S-DANE(联邦学习版本),但在非完全图上需要额外的稳定化和多步 Gossip 技术,这是本文的核心贡献。

评分

  • 新颖性: ⭐⭐⭐⭐ 稳定化投影的洞察精妙且新颖,但整体框架基于已有的近端点方法和 Gossip 平均
  • 实验充分度: ⭐⭐⭐ 理论严密但实验规模小且仅限凸优化场景,缺少深度学习验证
  • 写作质量: ⭐⭐⭐⭐ 理论陈述清晰,Table 1 一目了然地展示了所有方法的复杂度对比
  • 价值: ⭐⭐⭐⭐ 为去中心化优化的通信-计算权衡问题给出了最优解,理论贡献扎实

相关论文