Data Heterogeneity and Forgotten Labels in Split Federated Learning¶

会议: AAAI 2026
arXiv: 2511.09736
代码: GitHub
领域: 联邦学习 / 灾难性遗忘
关键词: Split Federated Learning, 灾难性遗忘, 数据异构, multi-head, 处理顺序

一句话总结¶

系统研究了 Split Federated Learning 中数据异构导致的灾难性遗忘现象（尤其是 server 端处理顺序造成的 intra-round 遗忘），并提出基于 multi-head 的 Hydra 方法，将 part-2 的最后层分组训练再聚合，显著降低标签间性能差距（PG 最高降低 75.4%）。

背景与动机¶

领域现状¶

领域现状：Split Federated Learning (SFL/SplitFedv2) 将模型分为 part-1（client 端）和 part-2（server 端）。Part-1 像标准 FL 一样在各 client 并行训练后聚合；Part-2 则由 server 按顺序依次处理各 client 的激活值进行训练。

作者发现 SFL 中存在两种灾难性遗忘 (CF)：(1) Part-1 的 跨轮遗忘：与 FL 相同，聚合导致模型偏移；(2) Part-2 的 轮内遗忘 (intraCF)：由 server 端顺序处理引起，类似持续学习，模型倾向于"记住"最后处理的 client 数据对应的标签，遗忘前面的。实验显示在 CIFAR-10 non-IID 设置下，最后处理的标签精度远高于最先处理的，全局精度仅 43%（IID 下达 80%）。

现有 CL 和 FL 的遗忘缓解方法（如 EWC、Scaffold）因假设不兼容而无法直接应用于 SFL：EWC 基于时序数据假设，Scaffold 需要完整模型。

解决思路¶

本文目标：SFL 中 server 端顺序处理导致的 intra-round 灾难性遗忘如何表征和缓解？cut layer 和处理顺序如何影响遗忘程度？

方法详解¶

整体框架¶

Hydra 在 SFL 的 server 端引入 multi-head 架构：将 part-2 进一步分为共享的 part-2a 和多个 head（part-2b）。Part-2a 按顺序更新（保持原 SFL 特性），而各 head 按 client 数据分布分组并行更新，轮末聚合。

关键设计¶

Client 分组: 训练前每个 client 发送其标签分布向量（长度 \(L\)），通过贪心算法将标签分布相似的 client 分入同一组。共 \(G\) 个组（head），每组内数据分布较均匀，减小梯度冲突。

Head 设计: 每个 head 对应 part-2 的最后若干层。Server 在前传时根据 mapping 将 part-2a 的输出分发到对应 head，反传时反向路由。轮末所有 head 通过 FedAvg 聚合为单一模型——与 CL 中保留多个 head 不同，Hydra 最终输出单 head 模型。

处理顺序分析: 作者定义了 cyclic order（按主导标签循环）和 random order 两种方式，发现： - Cyclic order 整体优于 random order，结构化处理更稳定 - 较小的 \(\phi\)（同类 client 连续处理数）效果更好，印证了训练序列多样性的重要性

Cut Layer 影响: 浅 cut layer → part-2 更大 → intraCF 效应更明显；深 cut layer → part-1 更大 → 类似 FL 的跨轮遗忘更显著。实验证实 intraCF 的危害大于 part-1 的模型偏移。

遗忘度量¶

Performance Gap (PG): \(\mathcal{PG}(r) = \frac{1}{L}\sum_{l=1}^{L}\max_{k}|min(0, A_l^r - A_k^r)|\)，衡量标签间精度差距
Backward Transfer (BW): 衡量峰值精度与最终精度的差异

实验关键数据¶

主实验¶

方法	全局精度↑	PG↓	BW↓
SFL (baseline)	43	43.4	28
SplitFedV1/FL	55	15.7	14
MergeSFL	65	21	13
MultiHead	47	36.6	25
SFL+Hydra	66.5	13.4	9

（MobileNet, CIFAR-10, 80%-DL）

Hydra 效果： - PG 最高降低 75.4%（ResNet101），精度提升最高 112.2% - 在 Sharding、Dirichlet(\(\alpha\)=0.1/0.3) 等不同数据划分下均有效 - 小 head（仅最后 2 层）效果优于大 head，且内存开销仅 \(G \times 6\)MB

亮点与洞察¶

首次系统揭示 SFL 中 intra-round 灾难性遗忘现象，区分于 FL 的跨轮遗忘
实验极为扎实：2 模型 × 4 数据集 × 多种数据划分 × 多种处理顺序，每组 ≥10 次重复取中位数
Hydra 设计巧妙，利用 SFL 的天然分割结构，client 端零开销
对 CL 理论在 SFL 中的适用性做了详细验证和对比

局限与展望¶

Client 分组依赖训练前共享标签分布，可能在隐私敏感场景受限
Head 数量 \(G\) 需预设，自适应分组策略有待探索
仅考虑分类任务，生成/回归任务的遗忘模式可能不同
未与 SMoFi 等 momentum-based 方法结合，两者可能互补

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐