Enhancing Multimodal Continual Instruction Tuning with BranchLoRA¶

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/BladeDancer957/BranchLoRA
领域: 多模态VLM / 持续学习
关键词: 持续指令微调, 灾难性遗忘, MoE LoRA, 非对称架构, 任务特定路由

一句话总结¶

发现MoELoRA在多模态持续指令微调(MCIT)中存在参数低效——矩阵A跨任务趋同而B保持区分，提出BranchLoRA：共享一个A矩阵（树干）+ 多个专有B矩阵（树枝） + 灵活调参-冻结机制 + 任务特定路由器，在CoIN benchmark上显著超越MoELoRA，有效缓解灾难性遗忘。

背景与动机¶

MLLM需要持续学习新任务（如先学ScienceQA、再学TextVQA、再学ImageNet...），但会灾难性遗忘旧任务。MoELoRA用多个LoRA专家+共享路由器来缓解遗忘，但作者通过t-SNE可视化发现关键问题：所有专家的A矩阵参数趋同，意味着A在捕获任务共享模式而B捕获任务特定模式——那为什么每个专家都有独立的A？这是冗余！

核心问题¶

如何在多模态持续指令微调中，既减少参数冗余又更有效地抗遗忘？

方法详解¶

整体框架¶

非对称LoRA架构：共享一个矩阵A（下投影）+ N个专有矩阵B（上投影）。配合灵活调参-冻结机制和增量任务路由器。

关键设计¶

非对称BranchLoRA结构: 矩阵A全局共享（树干），学习跨任务不变模式；矩阵B_j独立（树枝），学习任务特定知识。与MoELoRA相比，在相同参数量下让B的rank更大（因为不再每个专家都有独立A），表达能力更强。
灵活调参-冻结机制: 学习新任务t时：
冻结部分专家: 之前任务训好的B矩阵冻结，通过路由器访问以利用可迁移知识
训练新专家: 为新任务分配可训练的B矩阵
这避免了所有专家同时更新导致的知识覆盖
增量任务特定路由器: 不使用共享路由器（会偏向最新任务），而是为每个任务维护一个独立路由器。推理时用task selector自动将测试样本路由到正确的任务路由器——无需知道测试样本属于哪个任务。
Top-k稀疏选择: 不聚合所有专家（导致干扰），只选择得分最高的k个专家，减少任务间干扰。

损失函数 / 训练策略¶

基于LLaVA-1.5-7B和13B
LoRA rank=128, α=256
N=8专家，top-2选择
8×H800 GPU训练

实验关键数据¶

LLaVA-1.5-7B在CoIN Benchmark上（8个顺序任务）:

方法	ACC↑	MAA↑	BWT↑
Zero-shot	-	7.12	-
LoRA	低	较低	显著负
MoELoRA	中	中	负
BranchLoRA	最高	最高	最小负
Multi-task (上界)	-	57.18	-

BranchLoRA在所有8个task-wise评估中一致优于LoRA和MoELoRA
在LLaVA-1.5-13B上同样保持优势，证明跨规模泛化

消融实验要点¶

非对称 vs 对称: 共享A+独立B明显优于独立A+独立B（MoELoRA）
调参-冻结 vs 全更新: 冻结旧专家+训练新专家优于全部更新
任务特定路由器 vs 共享路由器: 任务特定路由器显著减少遗忘
Top-k选择: k=2是最优平衡点
Task Selector准确率: >95%，证明无需任务标识也能正确路由

亮点¶

数据驱动的设计决策: 通过t-SNE可视化发现A矩阵趋同的现象，不是空想而是实证驱动
优雅的类比: 共享A=树干，独立B=树枝，直观且合理
完整的MCIT方案: 从训练（调参-冻结）到推理（Task Selector）的全流程设计
与MoELoRA同参数量更强: 不增加参数量的情况下提升性能

局限性 / 可改进方向¶

仅在CoIN benchmark（8个任务）上验证，更长的任务序列（如20+个任务）效果未知
Task Selector的性能可能在任务数量增大时下降
冻结旧专家可能限制了跨任务知识迁移的深度
未与replay-based方法（如经验回放）结合
A矩阵虽然共享但持续更新，长序列后可能偏向后期任务

与相关工作的对比¶

vs MoELoRA (Chen et al.): BranchLoRA去掉了冗余的多个A矩阵，加入了调参-冻结和任务路由器，全面优于MoELoRA
vs EWC/LwF: 经典持续学习方法在MCIT中效果有限，BranchLoRA大幅领先
vs HydraLoRA: HydraLoRA也发现了A矩阵趋同现象但在多任务（非持续学习）场景

启发与关联¶

"A矩阵趋同"的发现可能推广到所有MoE LoRA场景——通用的LoRA设计应该考虑非对称结构
BranchLoRA的增量路由器思想可以用于Agent的持续学习——Agent需要不断学习新工具使用
与L4Q结合：在量化的LoRA上做BranchLoRA，实现持续学习+推理压缩

评分¶

新颖性: ⭐⭐⭐⭐ A矩阵趋同的实证发现和非对称设计有价值
实验充分度: ⭐⭐⭐⭐ CoIN benchmark完整评估，7B和13B两种规模
写作质量: ⭐⭐⭐⭐ t-SNE可视化和树干-树枝类比清晰直观
价值: ⭐⭐⭐⭐ 对MLLM持续学习方向有实际指导意义