A Framework for Double-Blind Federated Adaptation of Foundation Models¶

会议: ICCV 2025
arXiv: 2502.01289
代码: https://github.com/tnurbek/blindfed (有)
作者: Nurbek Tastan (MBZUAI), Karthik Nandakumar (MBZUAI / MSU)
领域: 模型压缩/联邦学习/隐私保护
关键词: 双盲联邦学习, 全同态加密, 分割学习, 基础模型适配, 隐私保护

一句话总结¶

BlindFed提出了双盲联邦基础模型适配框架：通过FHE友好的架构重设计（多项式近似非线性操作）+ 两阶段分割学习（离线知识蒸馏 + 在线加密推理）+ 隐私增强（样本置换 + 随机块采样），在数据方看不到模型、模型方看不到数据的约束下实现了接近LoRA的适配精度。

背景与动机¶

基础模型（如ViT、CLIP等）虽然在零样本任务上表现出色，但在特定下游任务（如医学图像、卫星遥感）上仍需适配。然而实际场景中面临两个核心矛盾：

数据隐私：数据分散在多个机构（如多家医院），法规限制数据共享
模型产权：学习服务提供商（LSP）不愿共享其昂贵训练的基础模型

传统联邦学习只解决了数据隐私（客户端不共享数据），但仍需将模型发送给客户端进行本地训练，违反了模型隐私。现有的隐私推理方法主要关注推理阶段，但缺乏对训练/适配阶段的双盲支持。因此需要一个同时保护数据和模型隐私的协作适配框架。

核心问题¶

如何在双盲约束（数据方不能接触模型，模型方不能接触数据）下，实现基础模型的跨机构联邦适配？

这是一个实际中非常重要但难度极大的问题：(1) 加密推理需要在密文域上操作，但FHE只支持多项式运算，Transformer中的Softmax/GELU/LayerNorm等非线性操作无法直接在加密域执行；(2) 适配方法需要避免通过FM反向传播，否则客户端需要存储模型；(3) 中间表示的泄露可能被用于模型提取攻击。

方法详解¶

整体框架¶

BlindFed的整体流程分为三个阶段：

输入：服务器拥有预训练FM和辅助公开数据集；K个客户端各自拥有下游任务的私有数据
输出：一个在下游任务上适配好的并行适配器和分类头

FHE友好架构重设计（服务器端，一次性）：将FM的非线性操作替换为多项式近似
离线知识蒸馏（服务器端，一次性）：用辅助数据集将原FM的知识蒸馏到近似后的FM
在线加密推理+本地学习+安全聚合（交互式，多轮）：客户端加密数据发送给服务器→服务器在密文域做推理→客户端解密中间表示→本地更新并行适配器→MPC安全聚合

关键设计¶

FHE友好的非线性近似
Softmax → ASoftmax：用Taylor级数近似指数函数 \(e^x \approx \sum_{i=0}^{d} \frac{x^i}{i!}\)（取\(d=6\)），然后除以指数和进行归一化
GELU → Quad：用二次函数近似 \(\text{Quad}(x) = 0.125x^2 + 0.25x + 0.5\)
除法（LayerNorm/Softmax中的）→ Goldschmidt算法：\(\frac{1}{x} = \prod_{i=0}^{d} (1 + (1-x)^{2^i})\)（取\(d=7\)）

这些近似使得所有操作都可以用加法和乘法在FHE域中完成。

并行适配器（LoSA）设计
关键选择：不能用LoRA（需要通过FM反向传播），必须用并行适配器
适配器与FM并行运行：\(\mathbf{h}_\ell = g_\ell(\mathbf{b}_\ell + \mathbf{h}_{\ell-1}) + \mathbf{h}_{\ell-1}\)
适配器函数：\(g_\ell(\mathbf{z}) = \alpha \mathbf{W}_\ell^u \text{GELU}(\mathbf{W}_\ell^d \mathbf{z})\)
优势：只需FM的中间表示（通过加密推理获得），不需要FM的反向传播梯度
逐块加密推理协议
由于整个FM的乘法深度超过FHE方案支持的范围，采用逐块处理：每处理完一个Transformer block后，客户端解密并重新加密中间表示
这带来了通信开销，但避免了频繁的bootstrapping操作
隐私增强方案
样本级置换：服务器在每个block后用随机置换矩阵\(\Pi_\ell\)打乱batch中样本的顺序，客户端看到的是打乱的中间表示。服务器只向客户端透露\(\Pi_{\ell-1}^{-1} \cdot \Pi_\ell\)（相对置换），无法恢复绝对置换（有\(n!\)种可能的解，\(n=16\)时约\(2 \times 10^{13}\)种）
随机块采样（SBS）：每轮前向传播只返回部分block的输出，其余设为零。采样规则避免连续block被选中（相邻block的特征相似性高，可被利用进行攻击）。期望采样率约\(L/3\)

损失函数 / 训练策略¶

阶段一：离线蒸馏（30 epochs） - 前15个epoch：Transformer层蒸馏 - 注意力矩阵蒸馏：\(\mathcal{L}_a = \frac{1}{h} \sum_{i=1}^{h} \| \mathbf{A}_i^{\mathcal{S}} - \mathbf{A}_i^{\mathcal{T}} \|^2\) - 隐状态蒸馏：\(\mathcal{L}_h = \| \mathbf{H}^{\mathcal{S}} - \mathbf{H}^{\mathcal{T}} \|^2\) - 总损失：\(\mathcal{L} = \mathcal{L}_a + \mathcal{L}_h\) - 后15个epoch：预测层蒸馏 - \(\mathcal{L}_p = \mathcal{L}_{CE}(\mathbf{z}^{\mathcal{S}}/\tau, \mathbf{z}^{\mathcal{T}}/\tau)\)，温度\(\tau=5\)

阶段二：联邦适配 - 交叉熵损失，SGD优化器（lr=0.001），50轮通信，lr在第25和40轮衰减0.1

实验关键数据¶

基础模型：ViT-Base（ImageNet-1K预训练），backbone维度384×384

数据集	方法	双盲	集中式	FL(α=100)	FL(α=1)	FL(α=0.01)
CIFAR-10	Full FT	✗	最佳	最佳	最佳	最佳
CIFAR-10	LoRA	✗	次佳	次佳	次佳	次佳
CIFAR-10	Linear Probe	✓	较低	较低	较低	极差
CIFAR-10	BlindFed	✓	接近LoRA	接近LoRA	接近LoRA	接近LoRA
CIFAR-10	BlindFed+SBS	✓	≈BlindFed	≈BlindFed	≈BlindFed	≈BlindFed

核心发现： - BlindFed在双盲约束下，精度接近非双盲的LoRA，远超同为双盲的Linear Probing - SBS对精度影响很小，某些情况下甚至因为正则化效应略有提升 - 样本置换不影响精度（因为适配器是逐样本操作） - Fed-ISIC2019实验表明辅助数据集可以是OOD数据（Tiny-ImageNet），知识迁移仍有效 - 扩展性：10/20/50个客户端下BlindFed均保持稳定，全量微调在50客户端时因GPU限制不可行

计算开销： | 指标 | 数值 | |------|------| | 单样本加密时间 | ~1062 ms | | 单样本解密时间 | ~168.7 ms | | 密文大小（单样本） | 17.33 MB（明文6.21 MB，约2.8×膨胀） | | 单block加密推理时间 | ~136秒/样本 | | 服务器端内存 | >22 GB | | 客户端端内存 | <1 GB |

消融实验要点¶

SBS采样率：期望采样\(L/3\)个block，避免连续采样。对精度影响极小
Softmax近似阶数：\(d=6\)在精度和计算量间取得平衡
逆函数近似阶数：\(d=7\)接近真实逆函数
适配器：并行适配器（LoSA）是唯一不需要通过FM反向传播的PEFT方法（除了Linear Probing）
参数量：BlindFed的可训练参数量（~0.25M）接近LoRA，远低于全量微调（~86M），GPU内存显著更低

亮点¶

首个双盲联邦FM适配框架：同时保护数据隐私和模型产权，这个问题定义本身就是重要贡献
巧妙的架构选择：选择并行适配器而非LoRA，因为PEFT方法中只有并行适配器和Linear Probing不需要FM反向传播，这个洞察很关键
样本置换的数学保证：通过Proposition 1证明了攻击者只获得相对置换时无法恢复绝对置换，需要\(n!\)次暴力搜索
SBS策略的双重价值：不仅防止模型提取攻击，还可能作为正则化手段提升泛化
辅助数据集可以OOD：蒸馏阶段使用的辅助数据不需要与下游任务同分布

局限性 / 可改进方向¶

计算代价极高：单个样本通过单个block的加密推理需136秒，12个block×多个样本×50轮通信，实际部署几乎不可行
通信开销大：密文膨胀2.8×，且需要逐block传输，总通信量 \(N_k \times L \times C\)
半诚实假设过强：实际中恶意参与者可能不遵循协议
FHE近似损失精度：多项式近似不可避免地引入精度损失，尤其是深层网络中误差累积
只验证了图像分类：未涉及更复杂的任务（检测、分割等）或更大的模型
GPU加速FHE：文中提到GPU加速可提升10×以上，但实验中未实际使用

与相关工作的对比¶

对比方法	双盲	需要FM反向传播	核心差异
FedAvg全量微调	✗	✓	需要将完整模型发给客户端
LoRA/FedIT	✗	✓	LoRA虽然参数少但仍需FM反向传播
Linear Probing	✓	✗	不更新backbone，适配能力有限
MPCFormer	N/A	N/A	仅关注隐私推理，不涉及训练/适配
SAL-ViT	N/A	N/A	优化PI效率，但不解决联邦适配
BlindFed	✓	✗	通过并行适配器+FHE推理实现双盲适配

与MPCFormer的关键区别：MPCFormer也用知识蒸馏+MPC做隐私推理，但BlindFed拓展到了联邦训练/适配场景。与LoRA的对比揭示了一个重要insight：在双盲约束下，不能使用需要FM反向传播的方法。

启发与关联¶

FHE友好的模型架构：这个方向值得深入研究——能否通过NAS自动搜索FHE最优架构，而非手动近似？
并行适配器在其他隐私场景的应用：LoSA的"不需反向传播"特性在其他资源受限场景也有价值
与模型压缩的交叉：更小的模型→更少的block→更低的通信/计算成本→更实际的双盲FL
SBS作为正则化：随机丢弃部分block输出类似Dropout思想，可能可以推广

评分¶

新颖性: ⭐⭐⭐⭐ 双盲FL适配的问题定义和框架设计很新颖，但各组件（FHE近似、LoSA、知识蒸馏）均已有
实验充分度: ⭐⭐⭐ ViT-Base较小，只做了图像分类，实际FHE实验也较有限
写作质量: ⭐⭐⭐⭐ 问题定义清晰，框架描述条理分明，数学严谨
实用价值: ⭐⭐⭐ 理念很好但计算代价极高，距离实际部署还很远