Improved Last-Iterate Convergence of Shuffling Gradient Methods for Nonsmooth Convex Optimization¶

会议: ICML 2025
arXiv: 2505.23056
代码: 无
领域: 优化理论
关键词: shuffling gradient, Random Reshuffle, last-iterate convergence, nonsmooth convex, suffix average

一句话总结¶

首次证明 Random Reshuffle（RR）和 Single Shuffle（SS）在非光滑（强）凸有限和优化中的 last-iterate 收敛率严格优于 Proximal GD，RR 达到 \(\tilde{O}(GD_\star / (n^{1/4}\sqrt{K}))\)，近似匹配下界 \(\Omega(1/(n^{1/4}\sqrt{K}))\)。

研究背景与动机¶

领域现状：Shuffling 梯度方法（RR/SS/IG）是求解有限和优化 \(\min_x F(x) = f(x) + \psi(x)\)（其中 \(f = \frac{1}{n}\sum_{i=1}^n f_i\)）最广泛使用的实践算法。不同于 SGD 随机采样单个分量，shuffling 方法在每个 epoch 中按排列顺序遍历所有 \(n\) 个分量。在光滑凸优化中已证明 RR/SS 的 last-iterate 达到最优收敛率。

现有痛点：Liu & Zhou (2024b) 建立了首个 last-iterate 收敛结果，但其非光滑情况下的界为 \(O(GD_\star/\sqrt{K})\)——这对任意 shuffling 策略成立，与 Proximal GD 相当，完全无法体现 RR/SS 中排列随机性带来的加速优势。Koren et al. (2022) 证明了 average iterate 在 RR 下的 \(O(1/(n^{1/4}\sqrt{K}))\) 速率，但 last-iterate 的改进一直是开放问题。

核心矛盾：非光滑性使得标准分析技术（依赖梯度 Lipschitz 连续性）失效，而排列结构引入的梯度间相关性使分析复杂度远超独立采样的 SGD。

本文目标：回答 Liu & Zhou (2024b) 提出的开放问题——在非光滑（强）凸优化中，RR/SS 的 last-iterate 是否可以证明比 Proximal GD 更快？

切入角度：利用 RR/SS 排列结构的精细分析，在步级（而非仅 epoch 级）建立递推不等式，提取出排列随机性带来的额外 \(n^{-1/4}\) 或 \(n^{-1/2}\) 加速因子。

核心 idea：RR 的 last-iterate 达到 \(\tilde{O}(GD_\star/(n^{1/4}\sqrt{K}))\)——首次证明非光滑下 shuffling 比 Proximal GD 严格更快。

方法详解¶

整体框架¶

本文研究的算法是 General Proximal Gradient Method（Algorithm 1）：在每步 \(t\)，选择索引 \(\mathsf{i}(t) \in [n]\)，执行 \(x_{t+1} = \arg\min_x \psi(x) + \langle \nabla f_{\mathsf{i}(t)}(x_t), x\rangle + \|x - x_t\|^2/(2\eta_t)\)。索引的生成方式决定了 RR（每 epoch 重新随机排列）、SS（全程用同一排列）或 IG（固定排列）。与现有 work 不同，Algorithm 1 在每步都执行近端更新（而非仅 epoch 末），且适用于任意 \(T \in \mathbb{N}\)（不要求 \(T = Kn\)）。

关键设计¶

RR 的一般凸 last-iterate 收敛（Theorem 4.2）:
- 功能：建立 RR 下 last-iterate 的首个加速收敛率
- 核心思路：设 \(T = Kn\)，步长 \(\eta_t = \eta/\sqrt{t}\)，则 \(\mathbb{E}[F(x_{Kn+1}) - F(x_\star)] = \tilde{O}(G_{f,2} D_\star / (n^{1/4}\sqrt{K}))\)。当 \(K = \Omega(\log n)\) 时对数因子可消除。关键技术创新在于逐步分析函数值变化，利用排列结构中"每 epoch 恰好遍历所有 \(n\) 个分量"的性质来提取 \(n^{-1/4}\) 加速因子
- 设计动机：相比 Liu & Zhou (2024b) 的 \(O(1/\sqrt{K})\)，本文的 \(\tilde{O}(1/(n^{1/4}\sqrt{K}))\) 快了 \(\Theta(n^{1/4})\) 倍，首次体现了 RR 排列随机性在非光滑情况下的加速作用
RR 的 suffix average 最优性（Corollary 4.3）:
- 功能：作为 Theorem 4.2 的推论，首次证明 suffix average（最后一个 epoch 的平均）也达到 \(\tilde{O}(1/(n^{1/4}\sqrt{K}))\)
- 核心思路：由 last-iterate 的界直接蕴含最后 \(n\) 个迭代点的平均值的界。这一结果近似匹配 Koren et al. (2022) 的下界 \(\Omega(1/(n^{1/4}\sqrt{K}))\)，填补了上下界之间的空白
- 设计动机：Koren et al. 仅对 average iterate 证明了上界但缺少对应的 last-iterate 和 suffix average 结果。本文从 last-iterate 出发同时解决了两个问题
SS 的 last-iterate 收敛（Theorems 4.5, 4.6）:
- 功能：对 Single Shuffle 建立 last-iterate 收敛率
- 核心思路：一般凸下：\(\tilde{O}(GD_\star/(n^{1/4}K^{1/4}) \lor GD_\star/\sqrt{n})\)。在约束优化特殊情况下（\(\psi = I_{\mathcal{C}}\)）可改进为 \(\tilde{O}(GD_\star/(n^{1/4}K^{1/4}) \land GD_\star/\sqrt{K})\)，对任意 \(K\) 都优于 Liu & Zhou。强凸下：\(\tilde{O}(\mu D_\star^2/(n^2K^2) + G^2/(\mu\sqrt{nK}) + G^2/(\mu n))\)
- 设计动机：SS 只在开始随机选一次排列，其随机性弱于 RR（每 epoch 重新排列）。SS 的收敛率确实弱于 RR（\(K^{1/4}\) vs \(\sqrt{K}\)），但仍严格优于 Proximal GD，揭示了"哪怕单次排列"也带来加速

损失函数 / 训练策略¶

本文是纯理论工作。假设条件为：每个 \(f_i\) 凸且 \(G_i\)-Lipschitz（仅在 \(\text{dom}\psi\) 上），\(\psi\) proper 闭凸且可能 \(\mu\)-强凸（\(\mu \ge 0\)）。步长选择为 \(\eta_t = \eta/\sqrt{t}\)（一般凸）或 \(\eta_t = \eta/t\)（强凸），其中 \(\eta\) 根据 \(G, D_\star, n\) 最优选取。论文还提出了一个保证 last-iterate 收敛的一般性充分条件，不限于 shuffling 策略。

实验关键数据¶

主要收敛率对比（\(T = Kn\), 一般凸 \(\mu=0\)）¶

方法	采样	收敛率	输出
Proximal GD	ANY	\(O(GD_\star/\sqrt{K})\)	\(x_{Kn+1}\)
Koren et al. 2022	RR	\(O(GD_\star/(n^{1/4}\sqrt{K}))\)	\(x_{Kn+1}^{\text{avg}}\)
本文 Thm 4.2	RR	\(\tilde{O}(GD_\star/(n^{1/4}\sqrt{K}))\)	\(x_{Kn+1}\)
本文 Cor 4.3	RR	\(\tilde{O}(GD_\star/(n^{1/4}\sqrt{K}))\)	\(x_{Kn+1}^{\text{suffix}}\)
本文 Thm 4.5	SS	\(\tilde{O}(GD_\star/(n^{1/4}K^{1/4}) \lor GD_\star/\sqrt{n})\)	\(x_{Kn+1}\)
下界 (Koren 2022)	RR/SS	\(\Omega(1/(n^{1/4}\sqrt{K}))\)	\(x_{Kn+1}^{\text{suffix}}\)

强凸 \(\mu > 0\) 收敛率¶

方法	采样	收敛率
Proximal GD / Liu&Zhou	ANY	\(\tilde{O}(\mu D_\star^2/K^2 + G^2/(\mu K))\)
本文 Thm 4.4	RR	\(\tilde{O}(\mu D_\star^2/(n^2K^2) + G^2/(\mu\sqrt{n}K))\)
本文 Thm 4.7	SS	\(\tilde{O}(\mu D_\star^2/(n^2K^2) + G^2/(\mu\sqrt{nK}) + G^2/(\mu n))\)
下界	ANY	\(\Omega(1/(nK))\)

关键发现¶

RR 在一般凸下相比 Proximal GD 加速因子为 \(\Theta(n^{1/4})\)，强凸下为 \(\Theta(n^{1/2})\)——\(n\) 越大加速越明显，精确反映了每 epoch 遍历 \(n\) 个分量的优势
Last-iterate 的界直接蕴含 suffix average 的最优性——说明 last-iterate 分析已足够精细，不需要额外的 averaging 操作
SS 弱于 RR 但仍优于 GD，说明"仅一次随机排列"也能提供加速
对数因子在 \(K = \Omega(\log n)\)（通常成立）时可消除

亮点与洞察¶

非光滑下 shuffling 严格优势的首次证明：终结了"non-smooth 场景下 shuffling 是否优于 GD"的理论争论。加速来源于排列保证每 epoch 均匀覆盖所有分量，减少了梯度估计的方差
Last-iterate 蕴含 suffix average 最优性：这一优雅的理论结果表明 last-iterate 分析可以"一石二鸟"，实践中直接使用最后一个迭代点即可，无需额外存储或计算历史平均
分析技术的突破：逐步（而非逐 epoch）分析函数值变化的递推技术，以及处理排列依赖性的新方法，可推广到其他非光滑有限和优化的分析中

局限性¶

强凸 RR 的速率 \(\tilde{O}(G^2/(\mu\sqrt{n}K))\) 是否最优仍为开放问题——下界仅为 \(\Omega(1/(nK))\)
IG（确定性排列）在非光滑情况下是否优于 GD 未涉及
假设 \(f_i\) 凸且 Lipschitz 限制了对非凸深度学习的直接适用性
步长选择依赖 \(G\), \(D_\star\), \(n\) 等参数的先验知识，自适应步长分析是自然后续

评分¶

新颖性: ⭐⭐⭐⭐ 非光滑情况下shuffling last-iterate优于GD的首次证明，解决重要开放问题
实验充分度: ⭐⭐ 纯理论工作，无实验验证
写作质量: ⭐⭐⭐⭐⭐ Table 1 结果总结极清晰，定理陈述严谨
价值: ⭐⭐⭐⭐ 为shuffling gradient理论填补关键空白