MARS: A Malignity-Aware Backdoor Defense in Federated Learning¶

会议: NeurIPS 2025
arXiv: 2509.20383
代码: GitHub
领域: AI Safety / Federated Learning
关键词: 后门攻击防御, 联邦学习, Wasserstein距离, 后门能量, 聚类检测

一句话总结¶

提出 MARS 防御方法，通过计算神经元的后门能量（Backdoor Energy）来感知模型的恶意程度，并利用 Wasserstein 距离聚类有效识别联邦学习中的后门模型。

联邦学习（FL）的分布式特性使其容易受到后门攻击。现有防御方法主要依赖三类经验性统计度量：范数约束、OOD 检测和一致性检测。然而，最新 SOTA 攻击（如 3DFed、CerP、DarkFed）通过约束后门更新的范数、分布和一致性来模仿良性更新，使这三类防御全部失效。

作者通过实验验证了这一失败：（1）后门更新的范数可以比良性更新更小；（2）PCA 投影后后门和良性更新不可区分；（3）后门更新之间的余弦相似度甚至低于某些良性更新之间的相似度。

核心洞察：现有度量与后门攻击松耦合，缺乏感知恶意意图的能力。因此需要一个与后门攻击紧耦合的度量。

MARS 包含三个步骤：（1）计算每个神经元的后门能量（BE）；（2）提取最突出的 BE 值形成浓缩后门能量（CBE）；（3）使用 Wasserstein 距离聚类识别后门模型。

后门能量（Backdoor Energy, BE）: 直觉上，BE 衡量每个神经元对后门攻击的关联程度。理想定义需要干净数据和触发器，但在 FL 中不可获取。作者利用 Lipschitz 常数作为 BE 的上界近似：\(BE_k^{(l)}(F) = \|f_k^{(l)}\|_{Lip}\)。该近似不依赖干净数据或触发器，仅需模型参数即可计算。理论支撑来自 Theorem 4.1，证明了 BE 的上界。
浓缩后门能量（Concentrated Backdoor Energy, CBE）: 后门可视为捷径，只有少量神经元与后门相关。因此从每层提取 top-κ%（默认 5%）的 BE 值，拼接成一维向量，最大化后门信息密度，减少无关神经元干扰。
Wasserstein 距离聚类（K-WMeans）: 传统 K-Means 使用欧几里得或余弦距离，对元素顺序敏感。由于 FL 中不同后门模型的 top BE 可能出现在不同神经元位置，即使值整体更大也无法被正确聚类。Wasserstein 距离关注元素的概率分布而非顺序，更适合本场景。Toy example 验证：两个后门 CBE L1=[1,2,3,4,5] 和 L2=[5,5,3,2,2] 的 Wasserstein 距离为 0.40，远小于与良性 L3=[1,1,1,1,1] 的距离 2.00/2.40。

数据集	攻击方式	指标	MARS	最佳Baseline	提升
MNIST	3DFed	ASR↓	9.72%	16.69%(FedCLP)	显著降低
MNIST	3DFed	TPR↑	100%	0%(多数方法)	完美检测
CIFAR-10	CerP	ASR↓	10.03%	10.01%(Multi-Krum)	持平
CIFAR-10	3DFed	ASR↓	9.86%	7.55%(FedCLP)	有竞争力
CIFAR-100	MRA	CAD↑	-	-	全面领先

配置	说明
κ (top%)	控制从每层提取的 BE 比例，默认 5%
ε (阈值)	控制集群距离判定，默认 0.03
距离度量	Wasserstein > 欧几里得 ≈ 余弦（通过 toy example 验证）