MAR-FL: A Communication Efficient Peer-to-Peer Federated Learning System¶

会议: NeurIPS 2025
arXiv: 2512.05234
代码: https://github.com/felix-fjm/mar-fl
领域: 优化 / 联邦学习
关键词: 联邦学习, P2P通信, Moshpit All-Reduce, 差分隐私, 知识蒸馏

一句话总结¶

提出 MAR-FL 系统，通过 Moshpit All-Reduce 机制和动态分组聚合，将 P2P 联邦学习的通信复杂度从 \(O(N^2)\) 降至 \(O(N \log N)\)，同时保持对网络抖动的鲁棒性。

领域现状：联邦学习（FL）正从中心化向 P2P 架构迁移，以消除中心服务器瓶颈和单点故障。

现有痛点：P2P FL 方案通信成本高（RDFL：\(O(N^2)\)），难以扩展到大规模部署；且对节点流失（churn）脆弱。

核心矛盾：全局模型聚合需要所有节点通信，但 P2P 无中心协调器——如何在分布式设置下高效达成全局平均？

切入角度：借鉴 Moshpit SGD 的动态分组思想，用分布式哈希表（DHT）仅协调元数据而非模型参数。

核心 idea：将全局聚合分解为 \(\lceil\log_M N\rceil\) 轮局部分组聚合，通过确定性 group key 避免重复配对。

每个对等体：本地 Momentum-SGD 更新 → 多轮 Moshpit All-Reduce（MAR）分组聚合 → 可选知识蒸馏（MKD）→ 全局平均模型。

Moshpit All-Reduce 聚合（MAR）
- 功能：将 N 个对等体分为大小为 M 的小组，每轮与 M-1 个其他对等体通信
- 核心思路：需要 \(\lceil\log_M N\rceil \approx \log N\) 轮即可实现全局平均，总通信复杂度 \(O(N \log N)\)
- 设计动机：单个对等体掉线仅影响其所在组，不阻塞全流程
分布式协调（DHT）
- 功能：使用 Hivemind Kademlia DHT 仅协调轻量级信息
- 核心思路：模型权重从不通过 DHT 传输，仅传递 barrier 和 group 元数据
- 设计动机：控制平面开销 \(O(N \log N)\)，相对模型交换流量可忽略
Moshpit 知识蒸馏（MKD）
- 功能：加速收敛，进一步减少通信轮数
- 核心思路：自动选择 top-\(\ell\) teachers（基于 KL 散度最小），融合 KL 发散和交叉熵损失，\(\lambda = \max(0, 1 - (t-1)/K)\) 实现平滑权重衰减
- 设计动机：将通信需求再降低 2-3 倍
差分隐私适配
- 功能：改进 FedAvg 的 DP 机制以适配无服务器 P2P 架构
- 核心思路：每对等体本地裁剪+加噪，通过 MAR 在小组内平均
- 设计动机：DP 保证完全分散化，无需中心服务器

知识蒸馏损失：\(L = \lambda\tau^2 D_{KL}(teacher \| student) + (1-\lambda)CE(y, student)\)。收敛分析：混合误差满足指数收敛。

方法	通信成本(相对)	模型性能	扩展性
FedAvg (中心化)	1.0x	99%+	中心瓶颈
RDFL (P2P, 125 节点)	10.0x	99%+	\(O(N^2)\)
MAR-FL	1.0x	99%+	\(O(N\log N)\)