跳转至

Towards Robust and Efficient Federated Low-Rank Adaptation with Heterogeneous Clients

会议: ACL 2025 (Long Paper, pp. 416–429)
arXiv: 2410.22815
作者: Jabin Koo, Minwoo Jang, Jungseul Ok (POSTECH, 韩国) 代码: 无公开
领域: 联邦学习 / 参数高效微调 / 大语言模型
关键词: Federated Learning, LoRA, Aggregation Discordance, Alternating Freeze, Adaptive Rank Selection, Communication Efficiency

一句话总结

提出 LoRA-A²(Low Rank Adaptation with Alternating freeze and Adaptive rank selection),通过交替冻结 A/B 矩阵解决联邦 LoRA 聚合不一致问题,并结合自适应秩选择机制在大幅压缩上传参数量(最高减少 99.8%)的同时保持鲁棒性,尤其在低秩+高数据异构场景下显著优于现有方法。

背景与动机

联邦学习(FL)中微调 LLM 面临巨大的通信开销。LoRA 通过低秩分解 \(\Delta W = BA\) 减少可训练参数,但在 FL 中面临一个核心矛盾——聚合不一致(Aggregation Discordance)

服务器对各客户端的 B 和 A 分别加权平均后相乘,不等于对各客户端的 \(B_k A_k\) 做加权平均: $\(\frac{1}{K}\sum(B_k + B_j) \cdot \frac{1}{K}\sum(A_k + A_j) \neq \frac{1}{K}\sum B_k A_k\)$

现有解决方案 FFA-LoRA 永久冻结 A 只训练 B,虽然消除了不一致,但限制了优化空间(A 始终保持初始值),导致在低秩 + 高数据异构条件下性能严重退化。

核心问题

如何在联邦 LoRA 框架中同时解决: 1. 聚合不一致问题(保证正确聚合) 2. 保留完整的优化参数空间(训练 A 和 B 两个矩阵) 3. 在低秩、高异构条件下保持鲁棒性 4. 进一步降低通信成本

方法详解

整体框架

LoRA-A² 包含两个核心组件:交替冻结(Alternating Freeze)和自适应秩选择(Adaptive Rank Selection)。全局维护一个秩为 \(r_G\) 的 LoRA 适配器,每轮交替训练 A 或 B,各客户端根据本地数据自适应选择重要的秩进行训练和上传。

关键设计

  1. 交替冻结(Alternating Freeze)
  2. 偶数轮冻结 A、训练 B;奇数轮冻结 B、训练 A
  3. 当冻结 A 时,所有客户端共享相同的 A,聚合变为: $\(\Delta W = \sum_k w_k B_k \cdot A = \sum_k w_k (B_k A_k) = \sum_k w_k \Delta W_k\)$ 聚合不一致问题自然消除
  4. 与 FFA-LoRA(永久冻结 A)相比,交替冻结使 A 也能被训练,保留了完整的优化空间
  5. 借鉴 LoRA+ 的思想,为 A 和 B 设置不同的学习率,进一步增强优化效果

  6. 自适应秩选择(Adaptive Rank Selection)

  7. 动机:关注上传通信(上行带宽通常远慢于下行),允许不同客户端选择不同的秩
  8. 贡献度准则:定义模块 \(m\) 中秩 \(i\) 的重要性分数: $\(S_{m,i}^{B_k} = \|\Delta B_k[:,i] \cdot A[i,:]\|_F\)$ 该准则捕获每个秩对模型更新 \(\Delta W\) 的贡献,同时考虑了 A 和 B 之间的交互(优于单纯的梯度大小准则)
  9. 选择与稀疏化:从全模型 \(r_G \times N\) 个秩中选 top-\((r_i \times N)\) 个秩(\(N\) 为目标模块数),生成二值掩码 \(M_k\),仅上传 \(B_k \odot M_k\)(或 \(A_k \odot M_k\)),实现稀疏通信
  10. 两大收益:(1) 不同客户端可选择不同秩,减少异构数据下的客户端冲突;(2) 将秩资源从不重要的模块重新分配到需要更多微调的模块

  11. 理论分析

  12. 证明了参数空间的包含关系: $\(\Omega_{\text{FFA-LoRA}} \subsetneq \Omega_{\text{FL+LoRA}} = \Omega_{\text{FlexLoRA}} \subset \Omega_{\text{LoRA-A}^2}\)$
  13. LoRA-A² 拥有最大的可达参数空间,同时传输的参数量更少

实验关键数据

实验在 NLU 任务上评估,使用 Dirichlet 分布 (\(\alpha\)) 控制数据异构程度,测试不同秩 (\(r\)) 下的性能。

方法 聚合方式 低秩鲁棒性 高异构鲁棒性 上传参数量 关键特点
FL+LoRA 分别聚合 A, B ❌ 退化严重 ❌ 退化严重 100% (基线) 存在聚合不一致
FFA-LoRA 永久冻结 A ❌ 低秩退化 ❌ 异构退化 ~50% 优化空间受限
FlexLoRA 全尺寸矩阵 + SVD ✅ 较好 ⚠️ 一般 高(需传全矩阵) 通信开销大
LoRA-A² 交替冻结 + 自适应秩 ✅ 鲁棒 ✅ 鲁棒 最低 0.2% 兼顾鲁棒与高效

核心实验发现: - 在极端条件下(低秩 \(r=1\) + 高异构 \(\alpha=0.1\)),LoRA-A² 仍保持稳定性能,而 FFA-LoRA 和 FL+LoRA 性能显著下降 - 相比全量微调,上传参数量最高减少 99.8%,且不损失性能 - 交替冻结本身已带来显著提升,加上自适应秩选择进一步压缩通信同时保持甚至提升性能

消融实验要点

  • 交替冻结 vs 永久冻结:交替冻结在各种秩和异构设置下一致优于永久冻结(FFA-LoRA),验证了保留完整优化空间的重要性
  • 学习率差异化:为 A 和 B 设置不同学习率可进一步增强交替优化效果
  • 贡献度准则对比:论文提出的基于 \(\|ΔB[:,i] \cdot A[i,:]\|_F\) 的准则优于单纯的梯度大小准则(\(\|ΔB[:,i]\|\)\(\|ΔA[i,:]\|\)),因为它显式建模了 A、B 之间的交互
  • 秩选择的效果:自适应秩选择允许各客户端选择不同的重要秩,有效减少了高异构场景下的客户端冲突

亮点

  • 设计简洁优雅:交替冻结是一个极其简单的改动(只需切换每轮冻结哪个矩阵),却同时解决了聚合不一致和优化空间受限两个问题
  • 鲁棒性突出:在极端低秩 + 极端异构的"最难"场景下依然稳定,这是现有方法普遍失败的场景
  • 严格的理论支撑:证明了 LoRA-A² 参数空间严格包含其他方法,提供了方法优势的理论解释
  • 自适应秩选择的跨模块重分配:不仅在同一模块内选秩,而是在全模型所有模块中统一排序选择,使得秩资源可以从不重要的模块流向关键模块
  • 通信效率极高:99.8% 的参数压缩率在联邦学习场景中极具实用价值

局限性 / 可改进方向

  • 交替冻结导致每轮只优化一半参数(A 或 B),收敛速度可能比同时训练两者更慢,需要更多通信轮数
  • 自适应秩选择需要额外跑 1 个 epoch 计算贡献度,增加了本地计算开销
  • 论文主要聚焦 NLU 类任务,缺少在生成任务(NLG)和更大模型规模(如 LLaMA-7B/13B)上的验证
  • 服务器端聚合后需要将稀疏更新"加到两轮之前的 B(或 A)"上,实现逻辑较复杂,需要维护历史状态
  • 未探讨与其他 PEFT 方法(如 Adapter、Prefix Tuning)在 FL 中的组合

与相关工作的对比

  • vs FFA-LoRA(Sun et al., 2024):永久冻结 A,优化空间受限,低秩/高异构退化;LoRA-A² 交替冻结,参数空间严格包含 FFA-LoRA
  • vs FlexLoRA(Bai et al., 2024):聚合全尺寸矩阵后做 SVD 重新分解,通信成本高(需传输 \(d_1 \times d_2\) 的全矩阵);LoRA-A² 仅传稀疏低秩更新,通信更省
  • vs FL+LoRA(FedAvg + LoRA):分别聚合 A 和 B,聚合不一致严重,异构敏感;LoRA-A² 彻底消除不一致
  • vs RoLoRA(Chen et al., 2024):同样采用交替优化的思路,但 LoRA-A² 额外引入了自适应秩选择以进一步提升效率和异构鲁棒性
  • vs HETLORA(Cho et al., 2024):支持异构秩但不解决聚合不一致;LoRA-A² 同时解决两个问题

启发与关联

  • "交替优化"的思想可以推广到其他联邦 PEFT 场景——任何涉及两组参数乘积的结构都可能受益于交替冻结
  • 自适应秩选择中的"跨模块统一排序"思想类似 AdaLoRA 中动态分配秩预算的理念,但在联邦场景下更具意义(不同客户端的重要模块可能不同)
  • 该论文引用量已达 19(截至 2026.03),说明联邦 LoRA 是一个快速增长的研究方向
  • 99.8% 的参数压缩可以启发边缘设备上的 LLM 部署策略

评分

  • 新颖性: ⭐⭐⭐⭐ 交替冻结虽然思路简单但切中要害,自适应秩选择的贡献度准则设计有原创性;两者组合形成了有效的框架
  • 实验充分度: ⭐⭐⭐⭐ 多种异构程度和秩设置下的对比充分,消融实验覆盖各组件,但缺少 NLG 任务和大规模模型实验
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,理论分析精炼,方法描述系统化;交替冻结+自适应秩选择的组合逻辑流畅
  • 对我的价值: ⭐⭐⭐⭐ 联邦 LoRA 聚合问题的清晰分析和简洁解法,对理解 LoRA 在分布式场景下的行为很有参考价值