MeCeFO: Enhancing LLM Training Robustness via Fault-Tolerant Optimization¶

会议: NeurIPS 2025
arXiv: 2510.16415
代码: GitHub
领域: 优化
关键词: 容错训练, 分布式优化, LLM预训练, 低秩梯度近似, 激活重计算

一句话总结¶

MeCeFO 提出了一种面向 LLM 训练的容错优化算法，当计算节点故障时通过跳连接、选择性激活重计算和低秩梯度近似三个技术将额外开销降到最低，在高频故障下仅有 4.18% 的吞吐量下降。

大规模 LLM 训练需要成千上万的 GPU 协同工作。在这种规模下，硬件故障不可避免：Meta 报告 LLaMA 3 405B 训练中平均每 4 小时就有一次硬件故障；阿里巴巴报告故障处理导致 31.19% 的停机时间。

现有容错方法存在根本性的效率问题： - 检查点方法: 定期保存训练状态，故障后从最近检查点恢复，但替换设备和重新加载耗时巨大。 - 调度方法: 动态重装分配任务，但设备减少导致吞吐下降。 - 冗余计算: 跨设备复制任务，即使无故障也大幅降低 GPU 利用率。

作者的核心洞察：上述方法都是算法无关的——它们拚命保证每一步计算的精确执行。但训练的目标不是重现精确的计算序列，而是获得泛化良好的参数。SGD/Adam 本质上对梯度噪声具有鲁棒性，这意味着我们可以战略性地牺牲计算精度来换取效率。

MeCeFO 采用邻居代做（Neighbor-Do-Both, NDB）策略：当一个节点故障时，同一数据并行组中的邻居节点接管其计算任务。NDB 的朴素实现会导致邻居节点内存翻倍和计算量翻倍，因此需要三个关键技术来减轻开销。

跳连接（Skip-Connection）: 在反向传播中跳过 MHA（多头注意力）模块的连接。经验发现（图 3），跳过 MHA 比跳过 FFN 对训练的干扰小得多。邻居节点跳过 MHA 后，该层的梯度仅由未受影响的 DP（数据并行）组贡献： $$\overline{\mathbf{G}}_{\ell,\#} = \frac{1}{|\mathcal{N}_{\ell,\#}|} \sum_{i \in \mathcal{N}_{\ell,\#}} \mathbf{G}_{i,\ell,\#}$$ 其中 $\mathcal{N}_{\ell,\#}$ 是既未故障也未作为邻居的 DP 组集合。这同时消除了 MHA 的激活存储和 Wgrad/Dgrad 计算。
选择性激活重计算: 对 FFN 模块不使用跳连接（因为跳 FFN 会引入严重的近似误差和梯度偏差），而是仅保留每个 FFN 模块的输入激活，反向传播时重计算中间激活。这消除了 FFN 的中间激活存储，但引入了额外的前向传播计算（约为正常 FFN 计算量的 1/3）。
低秩梯度近似: 为补偿重计算带来的额外开销，对 FFN 中线性层 $\mathbf{y} = \mathbf{W}\mathbf{x}$ 的权重梯度做低秩近似。对 $\mathbf{W}$ 做 SVD 得到右奇异向量 $\mathbf{V}_1$（取前 $r$ 个），则： $$\mathbf{G}_W = \mathbf{G}_y \mathbf{x}^\top \approx \mathbf{G}_y (\mathbf{x}^\top \mathbf{V}_1) \mathbf{V}_1^\top$$ 当 $r \ll \min\{b, m, n\}$ 时，近似 Wgrad 的 FLOPs 可忽略（$(2brn + 2brm + 2rmn)$ vs 原始 $2bmn$），有效补偿了重计算开销。投影矩阵 $\mathbf{V}_1$ 每 $\tau$ 步更新一次以减少 SVD 成本。

收敛分析: 在标准假设（$L$-光滑、有界随机梯度方差）和梯度误差假设（Assumption 3）下：

定理 1: MeCeFO 使用动量 SGD 的收敛率为 $\mathcal{O}\left(\frac{1}{\sqrt{nT}}\right)$，与标准分布式 SGD 一致。

关键的梯度误差假设（Assumption 3）要求近似梯度与无故障梯度的相对误差有界，实验验证了此误差在 LLaMA-1B 预训练中始终小于 0.6。

模型	无故障 PPL	低频故障 PPL	中频故障 PPL	高频故障 PPL
LLaMA-350M	18.74	18.75 (+0.05%)	18.88 (+0.75%)	19.04 (+1.60%)
LLaMA-1B	15.49	15.51 (+0.13%)	15.61 (+0.77%)	15.83 (+2.19%)
LLaMA-7B	14.92	14.97 (+0.34%)	15.04 (+0.80%)	15.16 (+1.61%)

故障频率	GLUE 平均	BoolQ	PIQA	说明
无故障	80.06	0.579	0.682	基线
低频	80.03	0.594	0.674	几乎无损
中频	80.13	0.571	0.678	略有波动
高频	79.99	0.587	0.684	仍可接受