A Framework for Double-Blind Federated Adaptation of Foundation Models¶
会议: ICCV 2025
arXiv: 2502.01289
代码: https://github.com/tnurbek/blindfed (有)
作者: Nurbek Tastan (MBZUAI), Karthik Nandakumar (MBZUAI / MSU)
领域: 模型压缩/联邦学习/隐私保护
关键词: 双盲联邦学习, 全同态加密, 分割学习, 基础模型适配, 隐私保护
一句话总结¶
BlindFed提出了双盲联邦基础模型适配框架:通过FHE友好的架构重设计(多项式近似非线性操作)+ 两阶段分割学习(离线知识蒸馏 + 在线加密推理)+ 隐私增强(样本置换 + 随机块采样),在数据方看不到模型、模型方看不到数据的约束下实现了接近LoRA的适配精度。
背景与动机¶
基础模型(如ViT、CLIP等)虽然在零样本任务上表现出色,但在特定下游任务(如医学图像、卫星遥感)上仍需适配。然而实际场景中面临两个核心矛盾:
- 数据隐私:数据分散在多个机构(如多家医院),法规限制数据共享
- 模型产权:学习服务提供商(LSP)不愿共享其昂贵训练的基础模型
传统联邦学习只解决了数据隐私(客户端不共享数据),但仍需将模型发送给客户端进行本地训练,违反了模型隐私。现有的隐私推理方法主要关注推理阶段,但缺乏对训练/适配阶段的双盲支持。因此需要一个同时保护数据和模型隐私的协作适配框架。
核心问题¶
如何在双盲约束(数据方不能接触模型,模型方不能接触数据)下,实现基础模型的跨机构联邦适配?
这是一个实际中非常重要但难度极大的问题:(1) 加密推理需要在密文域上操作,但FHE只支持多项式运算,Transformer中的Softmax/GELU/LayerNorm等非线性操作无法直接在加密域执行;(2) 适配方法需要避免通过FM反向传播,否则客户端需要存储模型;(3) 中间表示的泄露可能被用于模型提取攻击。
方法详解¶
整体框架¶
BlindFed的整体流程分为三个阶段:
输入:服务器拥有预训练FM和辅助公开数据集;K个客户端各自拥有下游任务的私有数据
输出:一个在下游任务上适配好的并行适配器和分类头
- FHE友好架构重设计(服务器端,一次性):将FM的非线性操作替换为多项式近似
- 离线知识蒸馏(服务器端,一次性):用辅助数据集将原FM的知识蒸馏到近似后的FM
- 在线加密推理+本地学习+安全聚合(交互式,多轮):客户端加密数据发送给服务器→服务器在密文域做推理→客户端解密中间表示→本地更新并行适配器→MPC安全聚合
关键设计¶
- FHE友好的非线性近似
- Softmax → ASoftmax:用Taylor级数近似指数函数 \(e^x \approx \sum_{i=0}^{d} \frac{x^i}{i!}\)(取\(d=6\)),然后除以指数和进行归一化
- GELU → Quad:用二次函数近似 \(\text{Quad}(x) = 0.125x^2 + 0.25x + 0.5\)
- 除法(LayerNorm/Softmax中的)→ Goldschmidt算法:\(\frac{1}{x} = \prod_{i=0}^{d} (1 + (1-x)^{2^i})\)(取\(d=7\))
这些近似使得所有操作都可以用加法和乘法在FHE域中完成。
- 并行适配器(LoSA)设计
- 关键选择:不能用LoRA(需要通过FM反向传播),必须用并行适配器
- 适配器与FM并行运行:\(\mathbf{h}_\ell = g_\ell(\mathbf{b}_\ell + \mathbf{h}_{\ell-1}) + \mathbf{h}_{\ell-1}\)
- 适配器函数:\(g_\ell(\mathbf{z}) = \alpha \mathbf{W}_\ell^u \text{GELU}(\mathbf{W}_\ell^d \mathbf{z})\)
-
优势:只需FM的中间表示(通过加密推理获得),不需要FM的反向传播梯度
-
逐块加密推理协议
- 由于整个FM的乘法深度超过FHE方案支持的范围,采用逐块处理:每处理完一个Transformer block后,客户端解密并重新加密中间表示
-
这带来了通信开销,但避免了频繁的bootstrapping操作
-
隐私增强方案
- 样本级置换:服务器在每个block后用随机置换矩阵\(\Pi_\ell\)打乱batch中样本的顺序,客户端看到的是打乱的中间表示。服务器只向客户端透露\(\Pi_{\ell-1}^{-1} \cdot \Pi_\ell\)(相对置换),无法恢复绝对置换(有\(n!\)种可能的解,\(n=16\)时约\(2 \times 10^{13}\)种)
- 随机块采样(SBS):每轮前向传播只返回部分block的输出,其余设为零。采样规则避免连续block被选中(相邻block的特征相似性高,可被利用进行攻击)。期望采样率约\(L/3\)
损失函数 / 训练策略¶
阶段一:离线蒸馏(30 epochs) - 前15个epoch:Transformer层蒸馏 - 注意力矩阵蒸馏:\(\mathcal{L}_a = \frac{1}{h} \sum_{i=1}^{h} \| \mathbf{A}_i^{\mathcal{S}} - \mathbf{A}_i^{\mathcal{T}} \|^2\) - 隐状态蒸馏:\(\mathcal{L}_h = \| \mathbf{H}^{\mathcal{S}} - \mathbf{H}^{\mathcal{T}} \|^2\) - 总损失:\(\mathcal{L} = \mathcal{L}_a + \mathcal{L}_h\) - 后15个epoch:预测层蒸馏 - \(\mathcal{L}_p = \mathcal{L}_{CE}(\mathbf{z}^{\mathcal{S}}/\tau, \mathbf{z}^{\mathcal{T}}/\tau)\),温度\(\tau=5\)
阶段二:联邦适配 - 交叉熵损失,SGD优化器(lr=0.001),50轮通信,lr在第25和40轮衰减0.1
实验关键数据¶
基础模型:ViT-Base(ImageNet-1K预训练),backbone维度384×384
| 数据集 | 方法 | 双盲 | 集中式 | FL(α=100) | FL(α=1) | FL(α=0.01) |
|---|---|---|---|---|---|---|
| CIFAR-10 | Full FT | ✗ | 最佳 | 最佳 | 最佳 | 最佳 |
| CIFAR-10 | LoRA | ✗ | 次佳 | 次佳 | 次佳 | 次佳 |
| CIFAR-10 | Linear Probe | ✓ | 较低 | 较低 | 较低 | 极差 |
| CIFAR-10 | BlindFed | ✓ | 接近LoRA | 接近LoRA | 接近LoRA | 接近LoRA |
| CIFAR-10 | BlindFed+SBS | ✓ | ≈BlindFed | ≈BlindFed | ≈BlindFed | ≈BlindFed |
核心发现: - BlindFed在双盲约束下,精度接近非双盲的LoRA,远超同为双盲的Linear Probing - SBS对精度影响很小,某些情况下甚至因为正则化效应略有提升 - 样本置换不影响精度(因为适配器是逐样本操作) - Fed-ISIC2019实验表明辅助数据集可以是OOD数据(Tiny-ImageNet),知识迁移仍有效 - 扩展性:10/20/50个客户端下BlindFed均保持稳定,全量微调在50客户端时因GPU限制不可行
计算开销: | 指标 | 数值 | |------|------| | 单样本加密时间 | ~1062 ms | | 单样本解密时间 | ~168.7 ms | | 密文大小(单样本) | 17.33 MB(明文6.21 MB,约2.8×膨胀) | | 单block加密推理时间 | ~136秒/样本 | | 服务器端内存 | >22 GB | | 客户端端内存 | <1 GB |
消融实验要点¶
- SBS采样率:期望采样\(L/3\)个block,避免连续采样。对精度影响极小
- Softmax近似阶数:\(d=6\)在精度和计算量间取得平衡
- 逆函数近似阶数:\(d=7\)接近真实逆函数
- 适配器:并行适配器(LoSA)是唯一不需要通过FM反向传播的PEFT方法(除了Linear Probing)
- 参数量:BlindFed的可训练参数量(~0.25M)接近LoRA,远低于全量微调(~86M),GPU内存显著更低
亮点¶
- 首个双盲联邦FM适配框架:同时保护数据隐私和模型产权,这个问题定义本身就是重要贡献
- 巧妙的架构选择:选择并行适配器而非LoRA,因为PEFT方法中只有并行适配器和Linear Probing不需要FM反向传播,这个洞察很关键
- 样本置换的数学保证:通过Proposition 1证明了攻击者只获得相对置换时无法恢复绝对置换,需要\(n!\)次暴力搜索
- SBS策略的双重价值:不仅防止模型提取攻击,还可能作为正则化手段提升泛化
- 辅助数据集可以OOD:蒸馏阶段使用的辅助数据不需要与下游任务同分布
局限性 / 可改进方向¶
- 计算代价极高:单个样本通过单个block的加密推理需136秒,12个block×多个样本×50轮通信,实际部署几乎不可行
- 通信开销大:密文膨胀2.8×,且需要逐block传输,总通信量 \(N_k \times L \times C\)
- 半诚实假设过强:实际中恶意参与者可能不遵循协议
- FHE近似损失精度:多项式近似不可避免地引入精度损失,尤其是深层网络中误差累积
- 只验证了图像分类:未涉及更复杂的任务(检测、分割等)或更大的模型
- GPU加速FHE:文中提到GPU加速可提升10×以上,但实验中未实际使用
与相关工作的对比¶
| 对比方法 | 双盲 | 需要FM反向传播 | 核心差异 |
|---|---|---|---|
| FedAvg全量微调 | ✗ | ✓ | 需要将完整模型发给客户端 |
| LoRA/FedIT | ✗ | ✓ | LoRA虽然参数少但仍需FM反向传播 |
| Linear Probing | ✓ | ✗ | 不更新backbone,适配能力有限 |
| MPCFormer | N/A | N/A | 仅关注隐私推理,不涉及训练/适配 |
| SAL-ViT | N/A | N/A | 优化PI效率,但不解决联邦适配 |
| BlindFed | ✓ | ✗ | 通过并行适配器+FHE推理实现双盲适配 |
与MPCFormer的关键区别:MPCFormer也用知识蒸馏+MPC做隐私推理,但BlindFed拓展到了联邦训练/适配场景。与LoRA的对比揭示了一个重要insight:在双盲约束下,不能使用需要FM反向传播的方法。
启发与关联¶
- FHE友好的模型架构:这个方向值得深入研究——能否通过NAS自动搜索FHE最优架构,而非手动近似?
- 并行适配器在其他隐私场景的应用:LoSA的"不需反向传播"特性在其他资源受限场景也有价值
- 与模型压缩的交叉:更小的模型→更少的block→更低的通信/计算成本→更实际的双盲FL
- SBS作为正则化:随机丢弃部分block输出类似Dropout思想,可能可以推广
评分¶
- 新颖性: ⭐⭐⭐⭐ 双盲FL适配的问题定义和框架设计很新颖,但各组件(FHE近似、LoSA、知识蒸馏)均已有
- 实验充分度: ⭐⭐⭐ ViT-Base较小,只做了图像分类,实际FHE实验也较有限
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,框架描述条理分明,数学严谨
- 实用价值: ⭐⭐⭐ 理念很好但计算代价极高,距离实际部署还很远