跳转至

Differentially Private Federated Low Rank Adaptation Beyond Fixed-Matrix

会议: NeurIPS 2025 arXiv: 2507.09990 代码: GitHub 领域: AI安全 关键词: 差分隐私, 联邦学习, LoRA, 低秩适配, 大语言模型微调

一句话总结

提出FedASK框架,通过双阶段sketching流水线(randomized SVD启发),首次在差分隐私下实现联邦LoRA中两个低秩矩阵A和B的同步有效更新,在Llama-2 7B/13B上MMLU提升最高11.5%,GSM8K提升46%。

研究背景与动机

  1. 领域现状: 联邦学习(FL)+LoRA是大语言模型(LLM)分布式微调的主流范式。LoRA通过训练低秩矩阵 \(A \in \mathbb{R}^{r \times n}\), \(B \in \mathbb{R}^{m \times r}\)\(r \ll \min(m,n)\))来高效适配,更新量 \(\Delta W = BA\)

  2. 现有痛点: 将差分隐私(DP)应用于联邦LoRA面临根本性困境

  3. 两矩阵加噪 → 噪声放大: 对A和B的梯度独立加DP噪声时,噪声在乘积 \(\Delta W = BA\) 中发生二次放大——期望噪声功率中出现 \(\sigma^4 C^4 d_l^2 r\) 的二次项
  4. 固定一个矩阵 → 学习能力受损: 现有方法(如FFA-LoRA)固定A只训B,避免了二次噪声但将更新限制在固定子空间中

  5. 核心矛盾: 隐私保护与模型学习能力的根本对立——加噪保护隐私但放大噪声,固定矩阵消除噪声但牺牲表达力。

  6. 本文要解决什么: 设计一个联邦LoRA框架,在强DP保证下同时有效更新A和B,兼顾隐私、学习能力和通信效率。

  7. 切入角度: 受randomized SVD启发,设计两阶段投影流水线:客户端传输压缩表示而非完整矩阵,服务器通过SVD从隐私化的压缩表示中精确重构全局更新并分发到A和B。

  8. 核心idea一句话: 本地只对B做DP-SGD(避免二次噪声),但通过服务器端的SVD分解将学到的知识重新分配到全局A和B——兼得隐私和双矩阵更新。

方法详解

整体框架

FedASK的核心是两阶段sketching流水线,每轮通信包含两次客户端-服务器交互:

Stage 1(随机子空间sketching): 1. 客户端本地训练 \(B_k^t, A_k^t\) 2. 用共享随机投影矩阵 \(\Omega \in \mathbb{R}^{n \times (r+p)}\) 计算 \(Y_k^{proj} = B_k^t(A_k^t \Omega)\) 3. 上传 \(Y_k^{proj}\) 到服务器 4. 服务器聚合并QR分解得正交基 \(Q\)

Stage 2(全局对齐投影): 1. 客户端接收 \(Q\),计算 \(\tilde{Y}_k^{proj} = (A_k^t)^\top((B_k^t)^\top Q)\) 2. 上传 \(\tilde{Y}_k^{proj}\) 到服务器 3. 服务器聚合并SVD分解 4. 更新全局参数: \(B^t = QU\Sigma^{1/2}\), \(A^t = \Sigma^{1/2}V^\top\)

关键设计

1. 双阶段Sketching(Algorithm 1)

  • 做什么: 通过两次压缩投影精确恢复聚合的LoRA乘积 \(\frac{1}{K}\sum_k B_k A_k\)
  • 核心insight: 虽然直接平均 \(A, B\) 会引入cross-term误差(\(\frac{1}{K}\sum B_k A_k \neq \frac{1}{K}\sum B_k \cdot \frac{1}{K}\sum A_k\)),但先投影到低维再用SVD还原可以精确聚合
  • 设计动机: 借鉴randomized SVD——先用随机投影捕获列空间,再在此空间中精确分解

2. DP集成策略

  • 做什么: 在DP模式下,本地只对B执行DP-SGD(A保持从上一轮全局同步的值不动)
  • 核心公式: $\(B_k^{\tau+1} = B_k^\tau - \frac{\gamma\alpha}{r}\left(\frac{\partial l}{\partial W_k^\tau} / \max\left(1, \frac{\|\partial l / \partial W_k^\tau\|_2}{C}\right) + \mathcal{N}(0, \sigma^2 C^2 \mathbf{I})\right)(A^{t-1})^T\)$
  • 关键: 虽然本地只训B,但全局SVD将隐私化信息重新分配到A和B两个矩阵——通过 \(A^t = \Sigma^{1/2}V^\top\) 实现A的全局更新

3. 噪声分析(Lemma 1)

  • 标准DP-LoRA的噪声: \(\mathbb{E}[\|\Delta W_{\text{noise}}\|_F^2] \approx \underbrace{\eta^2 \sigma^2 C^2 d_l r(\|A\|_F^2 + \|B\|_F^2)}_{\text{线性项}} + \underbrace{\eta^4 \sigma^4 C^4 d_l^2 r}_{\text{二次项(主导)}}\)
  • FedASK: 仅有线性噪声项(消除了灾难性的二次项)
  • SNR退化: 标准方法 \(1/\sigma^4\),FedASK \(1/\sigma^2\)

理论保证

  • Theorem 1 (隐私保证): FedASK满足 \((\epsilon, \delta)\)-DP,噪声方差 \(\sigma^2 = \mathcal{O}\left(\frac{q_D^2 \cdot m \cdot q_K \cdot T \cdot \ln(2/\delta) \cdot \ln(2Tq_K/\delta)}{\epsilon^2 \cdot K}\right)\)
  • Theorem 2 (精确聚合): 当over-sketching参数 \(p \geq d_B - r + 2\) 时,\(\|\Delta W^t - \frac{1}{K}\sum_k B_k A_k\|_F = 0\)

实验关键数据

主实验:Llama-2-7B(MMLU/DROP/HumanEval)

任务 隐私预算 FedASK FedAvg FFA-LoRA FedSA-LoRA FedProx Scaffold
MMLU Non-Private 46.15 45.13 45.98 45.19 44.98 45.65
MMLU \(\epsilon=1\) 45.80 42.07 42.76 42.90 41.99 43.41
MMLU \(\epsilon=3\) 46.25 41.49 42.72 41.13 43.17 42.47
DROP \(\epsilon=1\) 31.23 29.55 29.10 31.04 29.51 29.66
HumanEval \(\epsilon=1\) 15.24 12.80 12.20 13.41 12.20 9.76

Llama-2-13B(GSM8K/MATH)

任务 隐私预算 FedASK FedAvg FFA-LoRA FedSA-LoRA
GSM8K Non-Private 50.0 48.5 48.4 47.2
GSM8K \(\epsilon=1\) 22.7 15.5 14.2 12.2
GSM8K \(\epsilon=3\) 24.8 16.5 20.0 20.2
GSM8K \(\epsilon=6\) 27.7 19.3 20.2 17.3
MATH \(\epsilon=1\) 6.9 5.2 5.8 5.6

GSM8K上 \(\epsilon=1\) 时FedASK (22.7) vs FFA-LoRA (14.2) → 提升46%!

数据异质性实验(Llama-2-7B, \(\epsilon=3\)

任务 数据分布 FedASK FedAvg FFA-LoRA
MMLU IID 46.25 41.49 42.72
MMLU Dir(0.1) 46.04 42.69 42.54
MMLU Dir(0.5) 45.95 42.11 41.46

消融实验

变量 发现
Over-sketching \(p\) \(p=2\)~\(4\) 即可达到近似精确聚合
通信量 与FFA-LoRA相同量级 \(O(Kd_lr)\)
服务器内存 \(O(d_l r)\),与基线持平
DP噪声有时提升性能 在某些条件下起到隐式正则化作用

关键发现

  1. DP下优势巨大: 隐私预算越紧(\(\epsilon\)越小),FedASK相对优势越大——GSM8K上\(\epsilon=1\)时领先46%
  2. 非隐私设置也最优: 即使无DP,FedASK因精确聚合也优于FedAvg
  3. 强鲁棒性: 在IID和non-IID(Dir(0.1)~Dir(1.0))下均稳定领先
  4. 通信高效: 两阶段设计未增加额外通信开销

亮点与洞察

  1. 优雅地解决了DP-LoRA的根本困境: 本地只扰动一个矩阵避免二次噪声,全局通过SVD恢复双矩阵更新
  2. Randomized SVD的联邦化应用: 将经典数值线性代数工具创造性地用于联邦聚合
  3. 精确聚合保证(Theorem 2): 不是近似聚合,而是零误差——这在联邦LoRA文献中独一无二
  4. 在13B模型上验证: 少数在真正大模型上做DP联邦微调的工作之一
  5. DP噪声的意外正则化效果: 有趣的观察——某些条件下加噪反而提升性能

局限性/可改进方向

  1. 两轮通信per round: 每轮需要两次客户端-服务器交互,延迟加倍
  2. Stage 1的投影 \(Y_k^{proj}\) 未加DP噪声: 可能存在隐私泄露风险(虽然论文通过post-processing论证了安全性)
  3. 本地A不变: 虽然全局A通过SVD更新,但本地训练时A是固定的——可能限制本地适应能力
  4. 未探索与其他PEFT方法的结合: 如AdaLoRA、DoRA等
  5. 计算开销: 服务器端SVD和QR分解的额外计算,以及客户端两次投影计算

相关工作与启发

  • 与FFA-LoRA的关系: FFA-LoRA固定A只训B,FedASK也本地只训B但全局更新A——关键区别在于SVD重分配
  • 与FLoRA的关系: FLoRA通过stacking实现精确聚合,但通信量 \(O(K^2 d_l r)\);FedASK保持 \(O(K d_l r)\)
  • 启发点: Randomized SVD + Federated Learning的结合可能在更多场景中有用(如联邦推荐系统中的矩阵分解)

评分

⭐⭐⭐⭐ (4/5) - 方法设计巧妙,理论保证完整,实验在真正大模型上验证 - 两轮通信的实际延迟和本地A固定的限制是主要弱点