跳转至

Enhancing Multimodal Continual Instruction Tuning with BranchLoRA

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/BladeDancer957/BranchLoRA
领域: 多模态VLM / 持续学习
关键词: 持续指令微调, 灾难性遗忘, MoE LoRA, 非对称架构, 任务特定路由

一句话总结

发现MoELoRA在多模态持续指令微调(MCIT)中存在参数低效——矩阵A跨任务趋同而B保持区分,提出BranchLoRA:共享一个A矩阵(树干)+ 多个专有B矩阵(树枝) + 灵活调参-冻结机制 + 任务特定路由器,在CoIN benchmark上显著超越MoELoRA,有效缓解灾难性遗忘。

背景与动机

MLLM需要持续学习新任务(如先学ScienceQA、再学TextVQA、再学ImageNet...),但会灾难性遗忘旧任务。MoELoRA用多个LoRA专家+共享路由器来缓解遗忘,但作者通过t-SNE可视化发现关键问题:所有专家的A矩阵参数趋同,意味着A在捕获任务共享模式而B捕获任务特定模式——那为什么每个专家都有独立的A?这是冗余!

核心问题

如何在多模态持续指令微调中,既减少参数冗余又更有效地抗遗忘?

方法详解

整体框架

非对称LoRA架构:共享一个矩阵A(下投影)+ N个专有矩阵B(上投影)。配合灵活调参-冻结机制和增量任务路由器。

关键设计

  1. 非对称BranchLoRA结构: 矩阵A全局共享(树干),学习跨任务不变模式;矩阵B_j独立(树枝),学习任务特定知识。与MoELoRA相比,在相同参数量下让B的rank更大(因为不再每个专家都有独立A),表达能力更强。

  2. 灵活调参-冻结机制: 学习新任务t时:

  3. 冻结部分专家: 之前任务训好的B矩阵冻结,通过路由器访问以利用可迁移知识
  4. 训练新专家: 为新任务分配可训练的B矩阵
  5. 这避免了所有专家同时更新导致的知识覆盖

  6. 增量任务特定路由器: 不使用共享路由器(会偏向最新任务),而是为每个任务维护一个独立路由器。推理时用task selector自动将测试样本路由到正确的任务路由器——无需知道测试样本属于哪个任务。

  7. Top-k稀疏选择: 不聚合所有专家(导致干扰),只选择得分最高的k个专家,减少任务间干扰。

损失函数 / 训练策略

  • 基于LLaVA-1.5-7B和13B
  • LoRA rank=128, α=256
  • N=8专家,top-2选择
  • 8×H800 GPU训练

实验关键数据

LLaVA-1.5-7B在CoIN Benchmark上(8个顺序任务):

方法 ACC↑ MAA↑ BWT↑
Zero-shot - 7.12 -
LoRA 较低 显著负
MoELoRA
BranchLoRA 最高 最高 最小负
Multi-task (上界) - 57.18 -
  • BranchLoRA在所有8个task-wise评估中一致优于LoRA和MoELoRA
  • 在LLaVA-1.5-13B上同样保持优势,证明跨规模泛化

消融实验要点

  • 非对称 vs 对称: 共享A+独立B明显优于独立A+独立B(MoELoRA)
  • 调参-冻结 vs 全更新: 冻结旧专家+训练新专家优于全部更新
  • 任务特定路由器 vs 共享路由器: 任务特定路由器显著减少遗忘
  • Top-k选择: k=2是最优平衡点
  • Task Selector准确率: >95%,证明无需任务标识也能正确路由

亮点

  • 数据驱动的设计决策: 通过t-SNE可视化发现A矩阵趋同的现象,不是空想而是实证驱动
  • 优雅的类比: 共享A=树干,独立B=树枝,直观且合理
  • 完整的MCIT方案: 从训练(调参-冻结)到推理(Task Selector)的全流程设计
  • 与MoELoRA同参数量更强: 不增加参数量的情况下提升性能

局限性 / 可改进方向

  • 仅在CoIN benchmark(8个任务)上验证,更长的任务序列(如20+个任务)效果未知
  • Task Selector的性能可能在任务数量增大时下降
  • 冻结旧专家可能限制了跨任务知识迁移的深度
  • 未与replay-based方法(如经验回放)结合
  • A矩阵虽然共享但持续更新,长序列后可能偏向后期任务

与相关工作的对比

  • vs MoELoRA (Chen et al.): BranchLoRA去掉了冗余的多个A矩阵,加入了调参-冻结和任务路由器,全面优于MoELoRA
  • vs EWC/LwF: 经典持续学习方法在MCIT中效果有限,BranchLoRA大幅领先
  • vs HydraLoRA: HydraLoRA也发现了A矩阵趋同现象但在多任务(非持续学习)场景

启发与关联

  • "A矩阵趋同"的发现可能推广到所有MoE LoRA场景——通用的LoRA设计应该考虑非对称结构
  • BranchLoRA的增量路由器思想可以用于Agent的持续学习——Agent需要不断学习新工具使用
  • 与L4Q结合:在量化的LoRA上做BranchLoRA,实现持续学习+推理压缩

评分

  • 新颖性: ⭐⭐⭐⭐ A矩阵趋同的实证发现和非对称设计有价值
  • 实验充分度: ⭐⭐⭐⭐ CoIN benchmark完整评估,7B和13B两种规模
  • 写作质量: ⭐⭐⭐⭐ t-SNE可视化和树干-树枝类比清晰直观
  • 价值: ⭐⭐⭐⭐ 对MLLM持续学习方向有实际指导意义