跳转至

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

会议: ICLR 2026
arXiv: 2505.14238
代码: https://github.com/CERT-Lab/abba
领域: 模型压缩 / PEFT
关键词: 参数高效微调, LoRA, Hadamard积, 低秩适应, Khatri-Rao分解

一句话总结

提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。

研究背景与动机

  1. 领域现状:LoRA 是最流行的 PEFT 方法,通过 \(\Delta W = BA\)\(B \in \mathbb{R}^{m \times r}, A \in \mathbb{R}^{r \times n}\))将更新限制在秩-\(r\) 子空间中。
  2. 现有痛点:LoRA 的更新严格受限于秩-\(r\),表达力天然有限。HiRA 通过 \(\Delta W = W_0 \odot (BA)\) 引入 Hadamard 积提升有效秩,但更新与冻结权重 \(W_0\) 耦合——当目标更新与 \(W_0\) 的元素比值不是低秩时,HiRA 无优势。
  3. 核心矛盾:高表达力(高秩更新)需要更多参数,但 PEFT 的核心约束是参数量少。如何在相同参数预算下突破秩限制?
  4. 本文要解决什么? 在保持 LoRA 级别参数效率的同时大幅提升更新的表达力和有效秩。
  5. 切入角度:将 Hadamard 积的两个因子都设为可学习的低秩矩阵,完全解耦与预训练权重的依赖。利用 Khatri-Rao 分解避免实例化全尺寸矩阵。
  6. 核心 idea 一句话:两个秩-\(r/2\) 矩阵的 Hadamard 积有效秩可达 \(r^2/4\),是同参数下 LoRA 秩 \(r\) 的平方量级提升。

方法详解

整体框架

在每个目标层中,用 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\) 替代 LoRA 的 \(\Delta W = BA\)。四个矩阵 \(A_1, B_1, A_2, B_2\) 构成"ABBA"。为公平比较设 \(r_1 = r_2 = r/2\),使参数量与 LoRA 的秩-\(r\) 相同。

关键设计

  1. Hadamard 积的双低秩参数化:
  2. 做什么:将更新表达为两个独立低秩矩阵的 Hadamard(逐元素)积
  3. 核心思路:\(\text{rank}(W_1 \odot W_2) \leq r_1 \cdot r_2\),所以 ABBA 的有效秩上界为 \(r_1 \cdot r_2 = r^2/4\),远高于 LoRA 的 \(r\)。矩阵重构实验验证 ABBA 的重构误差一致低于同参数 LoRA
  4. 设计动机:与 HiRA 不同,两个因子都完全可学习,不与 \(W_0\) 绑定。这使更新能力不受预训练权重结构的限制

  5. Khatri-Rao 高效实现 (Theorem 1):

  6. 做什么:用 Khatri-Rao 分解将 ABBA 转换为 LoRA 形式,避免实例化全尺寸矩阵
  7. 核心思路:定义 \(B_{\text{kr}} = B_1 \odot_r B_2 \in \mathbb{R}^{m \times r_1 r_2}\)\(A_{\text{kr}} = (A_1^\top \odot_r A_2^\top)^\top\),则 \(\Delta W x = B_{\text{kr}}(A_{\text{kr}} x)\),中间激活仅 \(r_1 r_2\)
  8. 设计动机:朴素实现需要构造两个 \(m \times n\) 矩阵再做 Hadamard 积,内存代价等同全微调。KR 重构使计算和存储都保持低秩级别

  9. SVD 初始化 + 秩稳定性:

  10. 做什么:用 \(W_0\) 的截断 SVD 初始化 \((B_1, A_1)\)\((B_2, A_2)\) 用标准 LoRA 初始化
  11. 核心思路:EYM 定理保证截断 SVD 是最优秩-\(r_1\) 近似。缩放因子 \(s\) 需根据有效秩 \(r_1 r_2\) 调整(不是 \(r\)),论文证明了秩稳定性
  12. 设计动机:混合初始化让有意义的低秩子空间锚定更新方向,同时保留第二对矩阵的任务特定探索能力

损失函数 / 训练策略

同标准微调损失。与 LoRA 使用相同的训练超参数,仅将适配器结构替换为 ABBA。代码开源。

实验关键数据

主实验

算术推理 (GSM8K, MATH 等):

方法 参数量 GSM8K MATH 平均↑
LoRA (r=16) 基准 基线 基线 基线
DoRA 略优 略优 略优
HiRA 优于LoRA 优于LoRA 优于LoRA
ABBA (r=8+8) 显著最优 显著最优 显著最优

常识推理 (多数据集平均):

方法 LLaMA-7B LLaMA-3-8B 说明
LoRA 基线 基线
ABBA +2-3pp +2-3pp 全面领先

消融实验

配置 性能 说明
\(r_1 = r_2 = r/2\) 最佳 等分秩最大化 \(r_1 r_2\)
\(r_1 \neq r_2\) 略差 不对称分配非最优
随机初始化 \((B_1, A_1)\) 较差 SVD 初始化关键
无缩放因子 训练不稳定 秩稳定性需要适当缩放

关键发现

  • 矩阵重构实验证实 ABBA 在各类矩阵上一致优于同参数 LoRA,验证了更高的表达力
  • ABBA 的实际收敛速度快于 LoRA 和 HiRA(MNIST toy 实验视觉化展示)
  • Khatri-Rao 重构使 ABBA 的实际内存甚至优于 HiRA(HiRA 需要存储完整 \(W_0\)
  • 秩稳定性分析表明 \(s = 1/(r_1 r_2)\) 是适当的缩放,与 rsLoRA 的 \(1/r\) 推广一致

亮点与洞察

  • 参数量不变但秩平方提升\(r/2 \times r/2 = r^2/4\) 的有效秩提升是核心贡献——相当于在相同"预算"下购买了 \(r/4\) 倍更强的表达力
  • Khatri-Rao 的工程巧妙:Hadamard 积本不能"分配"到矩阵-向量乘法中,但通过 KR 分解巧妙避免了全矩阵实例化。这是使 ABBA 实际可用的关键技术贡献
  • 与 HiRA 的本质区别:HiRA 把一个因子固定为 \(W_0\)(免费但不可学),ABBA 把两个因子都设为可学但低秩(有参数代价但更灵活)。这引发了"利用预训练权重结构 vs 自由学习"的有趣权衡讨论

局限性 / 可改进方向

  • Khatri-Rao 重构的中间激活维度为 \(r_1 r_2\)(而非 LoRA 的 \(r\)),实际 FLOPs 有所增加
  • ABBA 不像 LoRA 那样有 closed-form 最优解(无法应用 EYM 定理),优化依赖梯度下降
  • 初始化依赖 \(W_0\) 的截断 SVD,每层需要一次 SVD 计算的前期成本
  • 仅在 LLM 上验证,视觉模型和多模态模型的适用性未探索

相关工作与启发

  • vs LoRA: ABBA 在相同参数下有效秩从 \(r\) 提升到 \(r^2/4\),是表达力的本质提升,代价是初始化和实现稍复杂
  • vs HiRA: HiRA 的 Hadamard 积因子之一固定为 \(W_0\),更新与预训练权重耦合;ABBA 全部可学,泛化能力更强
  • vs DoRA: DoRA 解耦方向和幅度,但更新仍为低秩;ABBA 通过 Hadamard 积突破秩限制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Hadamard 双低秩参数化+KR 高效实现是优雅的组合,秩平方提升的洞察深刻
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个模型+算术/常识推理+矩阵重构+详尽消融
  • 写作质量: ⭐⭐⭐⭐⭐ 从动机到理论到实验叙述流畅,图表设计清晰
  • 价值: ⭐⭐⭐⭐⭐ 作为 LoRA 的直接改进方案,简单实用且提升显著,代码开源