TOFA: Training-Free One-Shot Federated Adaptation for Vision-Language Models¶

会议: AAAI 2026
arXiv: 2511.16423
代码: 待确认
领域: 多模态VLM
关键词: 联邦学习, CLIP适配, One-Shot FL, 层次贝叶斯, 训练无关

一句话总结¶

提出TOFA框架，在联邦学习场景下通过层次贝叶斯模型学习个性化视觉prototype分布 + 全局对齐的LLM文本增强 + 自适应模态融合，实现无需训练、仅一轮通信的CLIP高效适配，在9个数据集上超越one-shot基线甚至部分多轮训练方法。

研究背景与动机¶

领域现状：CLIP等VLM在联邦学习(FL)中的适配日益受关注。现有方法主要通过prompt learning (PromptFL, pFedPrompt) 或fine-tuning来适配下游任务，但依赖多轮client-server通信。
现有痛点：
通信开销大：多轮交互导致高通信成本，且要求系统长期稳定运行
计算资源不足：大量移动端client和低配server无法进行模型训练
One-shot方法不适配VLM：已有的one-shot FL方法（如FedLPA、FENS）主要为传统模型设计，不善于利用VLM的多模态信息
数据异质性：non-IID数据分布导致local和global优化目标不一致
核心矛盾：如何在零训练、仅一轮通信的严格约束下，充分利用VLM的多模态信息，同时处理数据异质性
本文要解决什么？ 设计一个training-free + one-shot的FL框架，实现VLM的高质量适配
切入角度：分别从视觉和文本两条pipeline提取互补信息——视觉侧用贝叶斯方法提取个性化prototype，文本侧用LLM增强+全局对齐得到鲁棒文本表示
核心idea一句话：用层次贝叶斯做个性化视觉分布推断 + LLM文本增强全局对齐 + confidence-based模态融合，在FL中实现无训练一轮VLM适配

方法详解¶

整体框架¶

TOFA由三个模块组成： - Visual Pipeline: 各client计算local visual statistics → 上传server → server用uninformative prior计算全局class prototype分布 → 发回client → client用全局分布作为prior推断个性化local posterior → GDA分类 - Textual Pipeline: 各client用本地LLM生成augmented text descriptions → 计算各text prompt的importance score → server全局对齐，筛选robust text prompts → 加权组合用于分类 - Adaptive Fusion: 基于confidence的sample-wise融合，动态平衡visual和textual预测

关键设计¶

协同Prompt分布学习（Visual Pipeline）:
做什么：为每个client学习个性化的class-specific视觉prototype分布
核心思路：假设CLIP视觉特征服从class-specific高斯分布 \(\mathcal{N}(\mathbf{w}_c, \mathbf{\Sigma})\)。采用层次贝叶斯模型：全局后验分布 \(q(\theta) = \pi(\theta|D)\) 通过汇聚所有client的local statistics计算；然后以全局后验作为informative prior，结合local data计算个性化后验 \(q(\theta^k) \propto L(D^k|\theta^k)[L(D|\theta)]^\alpha \pi(\theta)\)，其中power prior参数 \(\alpha\) 控制全局信息的影响权重。使用Normal-Inverse-Wishart共轭prior保证后验有closed-form解，无需迭代优化。最终用GDA做分类
设计动机：直接用mean prototype会忽略数据分布的方差信息。贝叶斯框架自然地在全局generalization和local personalization之间做trade-off，\(\alpha\)控制两者的平衡。共轭prior保证one-shot可行（无需迭代）
全局对齐的文本增强（Textual Pipeline）:
做什么：从LLM生成的丰富文本描述中筛选robust且generalizable的text prompts
核心思路：各client使用LLM生成dataset-aware的class descriptions \(\{t_c^m\}_{m=1}^M\)。每个client计算每个text prompt对各class的分类置信度 \(p_c^k(t_c^m)\)。Server端用类KL散度的importance scoring \(r(t_c^m) = \frac{1}{K}\sum_{k=1}^K u^k(t_c^0)\log\frac{u^k(t_c^m)}{u^k(t_c^0)}\) 对text prompts评分，其中 \(u^k\) 衡量区分目标class与其他class的confidence。高分prompt在各种异质数据环境下都表现稳定
设计动机：手工模板"A photo of a {class}"太简单，LLM增强可以引入丰富语义但质量参差不齐。全局对齐确保选出的text prompts跨heterogeneous clients都有效
自适应模态融合:
做什么：sample-wise地融合visual和textual预测
核心思路：融合公式 \(f_M^k(\mathbf{z}) = \eta(\mathbf{z})f_V^k(\mathbf{z}) + (1-\eta(\mathbf{z}))f_T(\mathbf{z})\)，权重 \(\eta(\mathbf{z}) = \sigma(\log\frac{\max_j \text{softmax}(f_V^k(\mathbf{z}))_j}{\max_j \text{softmax}(f_T(\mathbf{z}))_j})\)。通过Theorem 1证明：当 \(\eta\) 与两种模态的loss差成正比时，融合分类器的泛化误差最小。用校准后的confidence作为accuracy的代理
设计动机：不同样本在不同模态上的可靠性不同——对某些样本visual更准，对另一些textual更准。固定权重无法适应这种变化

损失函数 / 训练策略¶

TOFA完全training-free： - Visual pipeline只需传递sufficient statistics（均值、散布矩阵、样本数） - Textual pipeline只需传递importance scores - 一轮通信：client→server→client即完成

实验关键数据¶

主实验¶

CLIP Datasets (16-shot, 10 clients, label shift):

方法	Training-free	One-shot	OxfordPets	Flowers102	Food101	Caltech101	DTD
CoOp	✗	✗	89.18	69.03	82.54	90.62	63.97
pFedPrompt	✗	✗	91.84	96.46	92.26	96.54	77.14
Zero-Shot CLIP	✓	✓	85.77	66.14	77.31	86.29	42.32
CLIP-GDA	✓	✓	88.81	91.23	79.05	92.55	60.64
FedLPA+PromptFL	✗	✓	83.42	78.60	74.74	88.69	52.75
TOFA	✓	✓	91.23	95.78	85.49	94.58	71.68

CIFAR-10/100 (100 clients, Dir(0.3)):

方法	CIFAR-10	CIFAR-100
FedAvg	75.10	42.52
Zero-Shot CLIP	87.71	64.92
CoOp	93.11	74.83
TOFA	93.18	76.63

消融实验¶

配置	效果	说明
Visual only	低于full model	缺少robust textual信息
Textual only	低于full model	缺少personalized visual信息
w/o Global Alignment	性能下降	LLM text质量不稳定
w/o Adaptive Fusion (fixed weight)	性能下降	无法适应sample-level差异
Full TOFA	最优	三模块互补

关键发现¶

TOFA作为training-free+one-shot方法，在多个数据集上超越了多轮训练的CoOp和PromptFL
在extreme heterogeneity（CIFAR-100, 100 clients, Dir(0.3)）下仍然有效，展现强鲁棒性
在DomainNet feature shift场景下也有竞争力，说明方法对label shift和feature shift都有效

亮点与洞察¶

层次贝叶斯的妙用：用全局后验作为local的informative prior，elegantly地在一轮通信内实现个性化。共轭prior保证closed-form解，避免了任何迭代优化——这是实现training-free的关键数学infrastructure
Text增强的全局对齐：不是简单averaging各client的text评分，而是用类KL散度选出跨异质环境都robust的text prompts，比直接用LLM输出质量高很多
Sample-wise fusion有理论支撑：Theorem 1将模态融合的generalization error bound与mixing coefficient联系起来，不是拍脑袋设计的confidence weighting

局限性 / 可改进方向¶

假设高斯分布：CLIP特征是否真的服从类高斯分布？复杂场景下（如细粒度分类）可能需要更灵活的分布假设
LLM一致性要求：需要各client使用相同版本LLM生成text augmentation，这在实际FL场景中可能难以保证
仅适用于分类任务：GDA-based视觉pipeline限制了方法只能做分类，无法扩展到detection/segmentation等任务
隐私分析不够深入：虽然只传递statistics而非raw data，但class-specific mean和covariance是否可能泄露隐私值得深入分析

评分¶

新颖性: ⭐⭐⭐⭐ 层次贝叶斯+全局文本对齐+自适应融合的组合在FL+VLM领域是首创
实验充分度: ⭐⭐⭐⭐ 9个数据集、多种异质性设置、4类baseline对比、消融实验完整
写作质量: ⭐⭐⭐⭐ 数学推导严谨，但公式密度很高，可读性一般
价值: ⭐⭐⭐⭐ 为资源受限的联邦VLM适配提供了实用方案，training-free+one-shot约束下的性能很impressive