跳转至

DoMIX: An Efficient Framework for Exploiting Domain Knowledge in Fine-Tuning

会议: ACL 2025
arXiv: 2507.02302
代码: https://github.com/dohoonkim-ai/DoMIX
领域: LLM效率
关键词: domain-adaptive pretraining, LoRA, knowledge exploitation, bridge module, continual learning

一句话总结

提出 DoMIX,将各领域知识用独立 LoRA 模块存储后通过对角初始化的 bridge 矩阵在微调时灵活组合利用,在持续领域适应预训练场景下减少 58% 预训练时间和 87% GPU 内存,同时性能超越 SOTA。

研究背景与动机

  1. 领域现状:领域适应预训练(DAP)——先在领域数据上预训练再微调——已被证明显著有效。持续 DAP 扩展到增量式学习多领域,但现有方法面临计算成本高、对领域顺序敏感、无法针对性利用领域知识等问题。
  2. 现有痛点:(1) 持续学习方法需要复杂的遗忘防止机制(如 EWC、经验回放),计算和内存成本高。(2) 顺序训练对数据顺序敏感——乱序可能导致不同结果。(3) 现有方法将所有领域知识融入单一模型,无法针对特定任务选择性利用领域知识。
  3. 核心矛盾:DAP 的本质是为每个任务提供最适合的领域模型,但持续 DAP 提供的是一个"通用"模型——违背了 DAP 的初衷。
  4. 本文要解决什么? 设计高效、并行、可针对性利用领域知识的 DAP 框架。
  5. 切入角度:用 LoRA 分别存储各领域知识(可并行训练),通过可学习的 bridge 矩阵在微调时自动决定利用哪些领域知识和利用程度。观察到不同领域知识可能对不同任务都有帮助。
  6. 核心 idea 一句话:独立 LoRA 存储领域知识 + 对角 bridge 矩阵控制利用程度 + 冻结 A 模块在领域子空间内微调。

方法详解

整体框架

三步:(1) 对各领域数据用独立 LoRA 做 DAP(可并行,冻结基础模型)。(2) 将多个 LoRA 的 A 矩阵行拼接、B 矩阵列拼接,中间插入对角 bridge 矩阵 P。(3) 微调时冻结 A 模块,训练 P 和 B,让模型在领域知识子空间内自动选择和利用。

关键设计

  1. 独立并行 DAP:
  2. 各领域独立训练 LoRA,不互相干扰,不需要遗忘防止机制。
  3. 可并行化:\(n\) 个领域可在 \(n\) 个 GPU 上同时训练。
  4. 无需记录领域 ID。

  5. Bridge 矩阵:

  6. 做什么:在拼接后的 \(B_{cat}\)\(A_{cat}\) 之间插入对角矩阵 \(P\)
  7. \(\Delta W = B_{cat} P A_{cat}\),其中 \(P\) 的对角元素 \(p_{ii}\) 控制第 \(i\) 个知识子空间的利用程度。
  8. 初始化为均匀分布(\(p_{ii} = 1/(2r)\)),不偏向任何领域。
  9. 设计动机:比 full bridge(\(P\) 为满矩阵)更参数高效,且对角设计提供清晰的可解释性。

  10. 冻结 A 模块微调:

  11. 冻结 A 模块使更新限制在领域知识子空间 \(\text{span}(A)\) 内。
  12. 训练 P + B,让模型学会在领域子空间内最优组合知识。
  13. 设计动机:利用已有领域知识而非从头学习。

实验关键数据

主实验

方法 预训练时间 GPU 内存 平均 F1 对顺序敏感
持续 DAP 方法 (SOTA) 100% 100% 基线
DoMIX 42% (-58%) 13% (-87%) 超越 SOTA
单独 DAP + LoRA 更少 更少 可比

消融实验

配置 效果 说明
DoMIX (完整) 最优 bridge + 冻A
w/o bridge (直接拼接) 下降 无法控制利用程度
Full bridge (满矩阵) 略好但参数多 对角足够
A 也训练 下降 跳出领域子空间
LLM 扩展实验 也有效 减少训练时间 36%,内存 18%

关键发现

  • 跨领域知识迁移存在:AI 领域的 DAP 对 Phone 任务也有帮助,验证了灵活利用领域知识的必要性。
  • bridge 的对角元素可解释:可以观察到哪些领域知识对哪些任务贡献最大。
  • 对数据顺序不敏感:独立并行训练消除了顺序依赖问题。

亮点与洞察

  • "知识积累与利用分离"的设计哲学:独立存储 + 灵活组合,既避免了灾难性遗忘又保留了领域特异性。
  • bridge 矩阵的简洁设计:一个小小的对角矩阵就能控制多领域知识的利用——参数增加极少但效果显著。

局限性 / 可改进方向

  • 仅在 RoBERTa-Base 上测试持续 DAP,LLM 实验较初步。
  • 领域数量增多时 LoRA 存储和拼接的开销会增加。
  • bridge 矩阵的对角假设可能过于简化(领域间交互未建模)。

相关工作与启发

  • vs MoE-based continual DAP (Ke et al.): 它们用复杂的遗忘防止机制,计算成本高;DoMIX 用独立 LoRA + bridge,高效简洁。
  • vs InfLoRA: InfLoRA 证明了冻结 A 在子空间内更新的有效性;DoMIX 将其推广到多领域知识利用。

评分

  • 新颖性: ⭐⭐⭐⭐ 独立LoRA + bridge矩阵的组合简洁有效
  • 实验充分度: ⭐⭐⭐ 持续DAP实验详尽,但LLM实验可更充分
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法图直观
  • 价值: ⭐⭐⭐⭐ 对领域适应预训练的效率提升显著