Federated Continual Instruction Tuning¶
- 会议: ICCV 2025
- arXiv: 2503.12897
- 领域: 联邦学习 / 持续学习 / 多模态大模型
- 关键词: Federated Learning, Continual Learning, Instruction Tuning, LoRA, LMM, Knowledge Organization, Catastrophic Forgetting
一句话总结¶
首次提出联邦持续指令微调(FCIT)基准,涵盖 2 种场景、4 种设置和 12 个数据集,并设计 DISCO 框架通过动态知识组织(DKO)和子空间选择性激活(SSA)有效解决数据异构性和灾难性遗忘。
研究背景与动机¶
大型多模态模型(LMM)的卓越性能高度依赖大规模指令微调数据,但集中式训练面临两大现实障碍:
数据隐私与分布:不同机构(如医院)的数据无法集中,需联邦学习框架进行协作训练
动态知识更新:现实场景中,新任务持续出现(如新病毒株),模型需要不断学习新知识同时保留旧知识
现有方法的不足: - 联邦学习方法大多假设固定任务集合,无法应对任务动态增长 - 持续学习方法无法在客户端间共享知识 - 联邦持续学习方法仅针对传统图像分类任务,无法适配 LMM 的复杂指令微调场景
以医疗应急为例:大医院通过联邦学习协作训练病例数据构建知识库,小诊所用全局知识更新本地病例;随时间推移需通过持续学习更新知识库,同时新病毒株的出现要求同步整合知识。这正是联邦学习与持续学习有机结合的真实需求。
方法详解¶
整体框架¶
DISCO(Dynamic knowledge organIzation and Subspace seleCtive activatiOn)框架包含两个核心组件:
- DKO(训练阶段):在全局服务器维护动态缓存,通过身份令牌匹配机制将不同任务的知识组织到对应子空间
- SSA(推理阶段):根据测试输入特征选择性激活相关子空间,抑制无关输出
关键设计¶
1. 动态知识组织(DKO)
FCIT 面临两类冲突: - 同阶段冲突:同一阶段不同客户端学习不同任务产生的参数空间冲突 - 跨阶段冲突:新任务修改旧任务参数空间导致灾难性遗忘
解决方案——将 LoRA 更新分解为任务特定子空间:
身份令牌(Identity Token)机制: - 每个客户端用冻结的 CLIP 文本编码器提取训练数据指令的特征均值作为本地身份令牌 \(\mu_k^t\) - 上传至服务器后,通过余弦相似度(阈值 \(\tau=0.9\))与全局身份令牌匹配 - 匹配成功:按样本加权更新对应全局令牌和子空间参数 - 匹配失败:初始化新的全局令牌和子空间
关键优势:使用文本特征(而非图像特征)区分任务,因为不同视觉指令微调数据集在图像层面的相似度往往高于文本层面(如 CLEVR-Math 和 super-CLEVR 图像相似但指令不同)。
2. 子空间选择性激活(SSA)
推理时直接拼接所有子空间会引入无关信息(例如生成长描述的子空间会干扰需要简短回答的任务)。SSA 通过激活因子动态控制各子空间的输出:
激活因子计算: 1. 计算测试输入指令特征与各全局身份令牌的余弦相似度 \(s_i\) 2. 通过带温度系数 \(\varepsilon=0.05\) 的 softmax 归一化得到 \(\alpha_i\)
这确保了与当前输入相关的子空间被放大,无关子空间被抑制。
损失函数¶
标准 LMM 指令微调的自回归交叉熵损失(Eq. 2),采用 LoRA 高效微调以降低通信开销。
FCIT 基准设计¶
两种场景: - 同构 FCIT(Hom-FCIT):所有客户端同一阶段学习同一任务 - 异构 FCIT(Het-FCIT):不同客户端同一阶段可能学习不同任务
两种设置: - 能力相关(4 阶段):12 个数据集按 General/Math/Chart/Other 四种能力分组 - 任务相关(8 阶段):8 个数据集各自作为独立阶段
数据异构性:用 Dirichlet 分布 \(\beta \in \{0.5, 1.0, 5.0\}\) 控制客户端数据的非 IID 程度。
实验关键数据¶
主实验(Hom-FCIT,Task-related,β=1.0)¶
| 方法 | Last | Avg |
|---|---|---|
| Zero-shot | 29.08 | - |
| Centralized MTL (上界) | 66.60 | - |
| Finetune | 47.20 | 68.79 |
| EWC | 47.92 | 69.22 |
| O-LoRA | 49.87 | 70.26 |
| M-LoRA | 48.53 | 71.58 |
| MoELoRA | 49.02 | 70.65 |
| DISCO | 56.22 | 73.03 |
DISCO 在 Last 指标上超过最佳基线 O-LoRA 约 6.4 个百分点。
主实验(Het-FCIT,Task-related,β=1.0)¶
| 方法 | Last | Avg |
|---|---|---|
| Finetune | 57.96 | 54.22 |
| O-LoRA | 59.74 | 55.20 |
| MoELoRA | 59.14 | 54.69 |
| DISCO | 63.25 | 61.99 |
Het-FCIT 中 DISCO 在 Avg 上超出约 6.8 个百分点,优势更显著。
消融实验¶
身份令牌提取方式(Task-related,β=1.0):
| 方式 | Hom-FCIT Last | Het-FCIT Last |
|---|---|---|
| 文本特征 | 56.22 | 63.25 |
| 图像特征 | 55.63 (-0.59) | 63.00 (-0.25) |
| 文本+图像 | 55.96 (-0.26) | 63.02 (-0.23) |
纯文本特征最优,因为视觉指令微调任务在图像层面相似度高于文本。
SSA 激活因子计算方式:
| 方式 | Hom-FCIT Last | Het-FCIT Last |
|---|---|---|
| Softmax(本文) | 56.22 | 63.25 |
| 直接拼接 | 51.74 (-4.48) | 60.36 (-2.89) |
| 余弦相似度 | 52.83 (-3.39) | 60.92 (-2.33) |
| Argmax | 55.74 (-0.48) | 62.88 (-0.37) |
Softmax 归一化最优;直接拼接引入过多无关信息性能骤降。
兼容性验证:与 FedAvgM、FedAdam、FedAdagrad、FedYogi 等联邦优化算法兼容,FedAvg 作为默认算法效果最佳。
关键发现¶
- 零样本迁移:DISCO 在未见任务上的零样本性能(33.08)显著优于 O-LoRA(28.27),说明知识组织避免了负迁移
- 通用基准保持:MME 1436.6 vs. 原始 1476.9,POPE 83.9 vs. 86.4,性能衰减最小
- 激活因子可视化:推理时仅当前任务对应的激活器有响应,其余被有效抑制
亮点与洞察¶
- 首个 LMM 联邦持续学习基准:2 场景 × 2 设置 × 3 异构度 = 完整的评估矩阵,填补了该交叉领域的空白
- 身份令牌的精妙设计:利用文本特征均值作为任务指纹,冻结编码器零额外训练开销
- SSA 的无训练推理增强:重新定义 LoRA 的内在混合矩阵为动态激活矩阵,不引入额外参数
- 阈值控制子空间自动发现:\(\tau=0.9\) 在 8 任务设置下自动形成 8 个子空间,无需预设任务数
- 现实场景建模:Het-FCIT 真实反映了医疗等场景中不同机构同时处理不同任务的需求
局限性¶
- 仅在 LLaVA-1.5-7B 上验证,未测试更大规模模型(如 13B、72B)
- 通信轮数固定为 10,未研究不同通信预算的影响
- 身份令牌基于 CLIP 文本编码器,对指令风格高度相似的任务可能难以区分
- LoRA 仅嵌入 FFN 层,未充分利用注意力层
- 12 个数据集的选取可能不够全面,特别是缺少生成类任务
相关工作¶
- 联邦学习:FedAvg、FLoRA 等,但假设固定任务集
- 持续学习:EWC(弹性权重固化)、L2P(学习提示)、O-LoRA(正交子空间约束)——均缺乏跨客户端知识共享
- 联邦持续学习:MFCL、PILoRA 等专注图像分类,AFCL 支持异步多任务但仍限于分类
- LMM 持续学习:Continual LLaVA、COIN 等仅考虑集中式训练
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 首个 LMM-FL-CL 交叉基准 + DKO/SSA 双组件设计新颖完整
- 实用性: ⭐⭐⭐⭐ — 面向真实分布式训练场景,代码和数据已开源
- 实验质量: ⭐⭐⭐⭐⭐ — 4 设置 × 3 异构度全矩阵实验,消融充分,可视化清晰
- 写作质量: ⭐⭐⭐⭐ — 问题定义严谨,场景建模贴近现实,方法描述系统
相关论文¶
- [ICML 2025] Widening the Network Mitigates the Impact of Data Heterogeneity on FedAvg
- [ICML 2025] Sparse Causal Discovery with Generative Intervention for Unsupervised Graph Domain Adaptation
- [ICML 2025] The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions
- [ICCV 2025] Federated Prompt-Tuning with Heterogeneous and Incomplete Multimodal Client Data
- [NeurIPS 2025] PROFIT: A Specialized Optimizer for Deep Fine Tuning