Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation¶

会议: ICLR 2026
arXiv: 2602.16936
代码: GitHub
领域: 联邦学习/高效微调
关键词: 联邦微调, LoRA, 异构秩, 初始化噪声, 聚合噪声

一句话总结¶

提出Fed-PLoRA框架，用多个并行一秩模块(PLoRA)替代多秩LoRA，通过Select-N-Fold策略（选N个训练+折叠其余到冻结权重）实现异构联邦微调的零初始化噪声和最小聚合噪声，在6个LLM/多任务上全面超越现有方法。

领域现状：联邦微调(FFT)用LoRA跨分布式客户端协作微调LLM，保持数据隐私。但客户端资源异构→不同LoRA秩→初始化和聚合出现维度不匹配问题。

现有痛点：(1) FLoRA：每轮随机重新初始化LoRA→巨大初始化噪声；(2) HETLoRA：截断全局LoRA→丢失低秩以外的信息+聚合偏差；(3) FlexLoRA：SVD重构→引入分解误差。所有方法在初始化噪声和聚合噪声之间存在不可调和的矛盾。

核心矛盾：全局模型秩R > 客户端秩 \(r_i\) → 客户端无法完整继承全局信息（初始化噪声），同时分别训练后的聚合也不完美（聚合噪声）。

切入角度：将多秩LoRA分解为多个并行一秩模块→每个模块独立→客户端选择子集训练+折叠其余到冻结权重→零初始化噪声。

PLoRA: \(\Delta W = \sum_{j=1}^{R} B_{(j)}A_{(j)}\)，等价于标准LoRA但模块独立。Select-N-Fold: 客户端 \(i\) 选 \(r_i\) 个模块训练，剩余折叠到预训练权重冻结。聚合：按秩维度独立平均。

PLoRA (Parallel One-Rank Adaptation):
- 功能：将秩-R的LoRA分解为R个并行的秩-1模块
- 核心思路：\(\Delta W_{\text{PLoRA}} = \sum_{j=1}^R B_{(j)}A_{(j)} = \sum_{j=1}^R B_{[:,j]}A_{[j,:]} = BA = \Delta W_{\text{LoRA}}\)
- 设计动机：数学等价但模块独立→自然支持子集选择
Select-N-Fold策略:
- 功能：客户端随机选 \(r_i\) 个PLoRA模块训练，其余折叠到冻结权重
- 核心思路：\(\mathcal{W}_i^t = \mathcal{W}^0 + \sum_{j \notin \mathcal{K}_i^t} B_{(j)}^{t-1}A_{(j)}^{t-1}\)，训练在 \(\mathcal{W}_i^t\) 上进行
- 设计动机：折叠保留了未训练模块的信息→零初始化噪声。随机选择确保所有模块在期望下被更新。
噪声分析:
- 初始化噪声：\(\mathcal{N}_{\text{Init}}^t = 0\)（完美保留全局信息）
- 聚合噪声上界：\(\leq \sum_{j=1}^R \frac{1}{|\mathcal{Q}_{(j)}^t|}\sum_i \|B_{i,(j)}^t - \bar{B}_{(j)}^t\|_2 + \|A_{i,(j)}^t - \bar{A}_{(j)}^t\|_2\)
- 余弦相似度分析证明模块间在训练后趋于一致→上界逐渐收紧

方法	IID准确率	non-IID准确率	初始化噪声
FedIT (同构)	66.88	61.28	0
FLoRA	中	中	高(随机重初始化)
FlexLoRA	中	中	中(截断+SVD误差)
HETLoRA	中	中	中(截断)
Fed-PLoRA	最高	最高	0

零初始化噪声：通过折叠而非截断/重初始化，完美保留全局信息。这个设计简洁但解决了异构FFT的根本问题。
PLoRA的模块独立性：虽然数学上等价于标准LoRA，但模块独立性使得子集选择+独立聚合自然成立。这是一个architectural trick带来的系统性改进。
统一噪声分析框架：为FLoRA/FlexLoRA/HETLoRA/Fed-PLoRA提供了统一的初始化噪声和聚合噪声分析，清晰展示了各方法的优劣。