Enhancing Multimodal Continual Instruction Tuning with BranchLoRA¶
会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/BladeDancer957/BranchLoRA
领域: 多模态VLM / 持续学习
关键词: 持续指令微调, 灾难性遗忘, MoE LoRA, 非对称架构, 任务特定路由
一句话总结¶
发现MoELoRA在多模态持续指令微调(MCIT)中存在参数低效——矩阵A跨任务趋同而B保持区分,提出BranchLoRA:共享一个A矩阵(树干)+ 多个专有B矩阵(树枝) + 灵活调参-冻结机制 + 任务特定路由器,在CoIN benchmark上显著超越MoELoRA,有效缓解灾难性遗忘。
背景与动机¶
MLLM需要持续学习新任务(如先学ScienceQA、再学TextVQA、再学ImageNet...),但会灾难性遗忘旧任务。MoELoRA用多个LoRA专家+共享路由器来缓解遗忘,但作者通过t-SNE可视化发现关键问题:所有专家的A矩阵参数趋同,意味着A在捕获任务共享模式而B捕获任务特定模式——那为什么每个专家都有独立的A?这是冗余!
核心问题¶
如何在多模态持续指令微调中,既减少参数冗余又更有效地抗遗忘?
方法详解¶
整体框架¶
非对称LoRA架构:共享一个矩阵A(下投影)+ N个专有矩阵B(上投影)。配合灵活调参-冻结机制和增量任务路由器。
关键设计¶
-
非对称BranchLoRA结构: 矩阵A全局共享(树干),学习跨任务不变模式;矩阵B_j独立(树枝),学习任务特定知识。与MoELoRA相比,在相同参数量下让B的rank更大(因为不再每个专家都有独立A),表达能力更强。
-
灵活调参-冻结机制: 学习新任务t时:
- 冻结部分专家: 之前任务训好的B矩阵冻结,通过路由器访问以利用可迁移知识
- 训练新专家: 为新任务分配可训练的B矩阵
-
这避免了所有专家同时更新导致的知识覆盖
-
增量任务特定路由器: 不使用共享路由器(会偏向最新任务),而是为每个任务维护一个独立路由器。推理时用task selector自动将测试样本路由到正确的任务路由器——无需知道测试样本属于哪个任务。
-
Top-k稀疏选择: 不聚合所有专家(导致干扰),只选择得分最高的k个专家,减少任务间干扰。
损失函数 / 训练策略¶
- 基于LLaVA-1.5-7B和13B
- LoRA rank=128, α=256
- N=8专家,top-2选择
- 8×H800 GPU训练
实验关键数据¶
LLaVA-1.5-7B在CoIN Benchmark上(8个顺序任务):
| 方法 | ACC↑ | MAA↑ | BWT↑ |
|---|---|---|---|
| Zero-shot | - | 7.12 | - |
| LoRA | 低 | 较低 | 显著负 |
| MoELoRA | 中 | 中 | 负 |
| BranchLoRA | 最高 | 最高 | 最小负 |
| Multi-task (上界) | - | 57.18 | - |
- BranchLoRA在所有8个task-wise评估中一致优于LoRA和MoELoRA
- 在LLaVA-1.5-13B上同样保持优势,证明跨规模泛化
消融实验要点¶
- 非对称 vs 对称: 共享A+独立B明显优于独立A+独立B(MoELoRA)
- 调参-冻结 vs 全更新: 冻结旧专家+训练新专家优于全部更新
- 任务特定路由器 vs 共享路由器: 任务特定路由器显著减少遗忘
- Top-k选择: k=2是最优平衡点
- Task Selector准确率: >95%,证明无需任务标识也能正确路由
亮点¶
- 数据驱动的设计决策: 通过t-SNE可视化发现A矩阵趋同的现象,不是空想而是实证驱动
- 优雅的类比: 共享A=树干,独立B=树枝,直观且合理
- 完整的MCIT方案: 从训练(调参-冻结)到推理(Task Selector)的全流程设计
- 与MoELoRA同参数量更强: 不增加参数量的情况下提升性能
局限性 / 可改进方向¶
- 仅在CoIN benchmark(8个任务)上验证,更长的任务序列(如20+个任务)效果未知
- Task Selector的性能可能在任务数量增大时下降
- 冻结旧专家可能限制了跨任务知识迁移的深度
- 未与replay-based方法(如经验回放)结合
- A矩阵虽然共享但持续更新,长序列后可能偏向后期任务
与相关工作的对比¶
- vs MoELoRA (Chen et al.): BranchLoRA去掉了冗余的多个A矩阵,加入了调参-冻结和任务路由器,全面优于MoELoRA
- vs EWC/LwF: 经典持续学习方法在MCIT中效果有限,BranchLoRA大幅领先
- vs HydraLoRA: HydraLoRA也发现了A矩阵趋同现象但在多任务(非持续学习)场景
启发与关联¶
- "A矩阵趋同"的发现可能推广到所有MoE LoRA场景——通用的LoRA设计应该考虑非对称结构
- BranchLoRA的增量路由器思想可以用于Agent的持续学习——Agent需要不断学习新工具使用
- 与L4Q结合:在量化的LoRA上做BranchLoRA,实现持续学习+推理压缩
评分¶
- 新颖性: ⭐⭐⭐⭐ A矩阵趋同的实证发现和非对称设计有价值
- 实验充分度: ⭐⭐⭐⭐ CoIN benchmark完整评估,7B和13B两种规模
- 写作质量: ⭐⭐⭐⭐ t-SNE可视化和树干-树枝类比清晰直观
- 价值: ⭐⭐⭐⭐ 对MLLM持续学习方向有实际指导意义