ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models¶
会议: ICLR 2026
arXiv: 2505.14238
代码: https://github.com/CERT-Lab/abba
领域: 模型压缩 / PEFT
关键词: 参数高效微调, LoRA, Hadamard积, 低秩适应, Khatri-Rao分解
一句话总结¶
提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。
研究背景与动机¶
- 领域现状:LoRA 是最流行的 PEFT 方法,通过 \(\Delta W = BA\)(\(B \in \mathbb{R}^{m \times r}, A \in \mathbb{R}^{r \times n}\))将更新限制在秩-\(r\) 子空间中。
- 现有痛点:LoRA 的更新严格受限于秩-\(r\),表达力天然有限。HiRA 通过 \(\Delta W = W_0 \odot (BA)\) 引入 Hadamard 积提升有效秩,但更新与冻结权重 \(W_0\) 耦合——当目标更新与 \(W_0\) 的元素比值不是低秩时,HiRA 无优势。
- 核心矛盾:高表达力(高秩更新)需要更多参数,但 PEFT 的核心约束是参数量少。如何在相同参数预算下突破秩限制?
- 本文要解决什么? 在保持 LoRA 级别参数效率的同时大幅提升更新的表达力和有效秩。
- 切入角度:将 Hadamard 积的两个因子都设为可学习的低秩矩阵,完全解耦与预训练权重的依赖。利用 Khatri-Rao 分解避免实例化全尺寸矩阵。
- 核心 idea 一句话:两个秩-\(r/2\) 矩阵的 Hadamard 积有效秩可达 \(r^2/4\),是同参数下 LoRA 秩 \(r\) 的平方量级提升。
方法详解¶
整体框架¶
在每个目标层中,用 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\) 替代 LoRA 的 \(\Delta W = BA\)。四个矩阵 \(A_1, B_1, A_2, B_2\) 构成"ABBA"。为公平比较设 \(r_1 = r_2 = r/2\),使参数量与 LoRA 的秩-\(r\) 相同。
关键设计¶
- Hadamard 积的双低秩参数化:
- 做什么:将更新表达为两个独立低秩矩阵的 Hadamard(逐元素)积
- 核心思路:\(\text{rank}(W_1 \odot W_2) \leq r_1 \cdot r_2\),所以 ABBA 的有效秩上界为 \(r_1 \cdot r_2 = r^2/4\),远高于 LoRA 的 \(r\)。矩阵重构实验验证 ABBA 的重构误差一致低于同参数 LoRA
-
设计动机:与 HiRA 不同,两个因子都完全可学习,不与 \(W_0\) 绑定。这使更新能力不受预训练权重结构的限制
-
Khatri-Rao 高效实现 (Theorem 1):
- 做什么:用 Khatri-Rao 分解将 ABBA 转换为 LoRA 形式,避免实例化全尺寸矩阵
- 核心思路:定义 \(B_{\text{kr}} = B_1 \odot_r B_2 \in \mathbb{R}^{m \times r_1 r_2}\) 和 \(A_{\text{kr}} = (A_1^\top \odot_r A_2^\top)^\top\),则 \(\Delta W x = B_{\text{kr}}(A_{\text{kr}} x)\),中间激活仅 \(r_1 r_2\) 维
-
设计动机:朴素实现需要构造两个 \(m \times n\) 矩阵再做 Hadamard 积,内存代价等同全微调。KR 重构使计算和存储都保持低秩级别
-
SVD 初始化 + 秩稳定性:
- 做什么:用 \(W_0\) 的截断 SVD 初始化 \((B_1, A_1)\),\((B_2, A_2)\) 用标准 LoRA 初始化
- 核心思路:EYM 定理保证截断 SVD 是最优秩-\(r_1\) 近似。缩放因子 \(s\) 需根据有效秩 \(r_1 r_2\) 调整(不是 \(r\)),论文证明了秩稳定性
- 设计动机:混合初始化让有意义的低秩子空间锚定更新方向,同时保留第二对矩阵的任务特定探索能力
损失函数 / 训练策略¶
同标准微调损失。与 LoRA 使用相同的训练超参数,仅将适配器结构替换为 ABBA。代码开源。
实验关键数据¶
主实验¶
算术推理 (GSM8K, MATH 等):
| 方法 | 参数量 | GSM8K | MATH | 平均↑ |
|---|---|---|---|---|
| LoRA (r=16) | 基准 | 基线 | 基线 | 基线 |
| DoRA | 同 | 略优 | 略优 | 略优 |
| HiRA | 同 | 优于LoRA | 优于LoRA | 优于LoRA |
| ABBA (r=8+8) | 同 | 显著最优 | 显著最优 | 显著最优 |
常识推理 (多数据集平均):
| 方法 | LLaMA-7B | LLaMA-3-8B | 说明 |
|---|---|---|---|
| LoRA | 基线 | 基线 | |
| ABBA | +2-3pp | +2-3pp | 全面领先 |
消融实验¶
| 配置 | 性能 | 说明 |
|---|---|---|
| \(r_1 = r_2 = r/2\) | 最佳 | 等分秩最大化 \(r_1 r_2\) |
| \(r_1 \neq r_2\) | 略差 | 不对称分配非最优 |
| 随机初始化 \((B_1, A_1)\) | 较差 | SVD 初始化关键 |
| 无缩放因子 | 训练不稳定 | 秩稳定性需要适当缩放 |
关键发现¶
- 矩阵重构实验证实 ABBA 在各类矩阵上一致优于同参数 LoRA,验证了更高的表达力
- ABBA 的实际收敛速度快于 LoRA 和 HiRA(MNIST toy 实验视觉化展示)
- Khatri-Rao 重构使 ABBA 的实际内存甚至优于 HiRA(HiRA 需要存储完整 \(W_0\))
- 秩稳定性分析表明 \(s = 1/(r_1 r_2)\) 是适当的缩放,与 rsLoRA 的 \(1/r\) 推广一致
亮点与洞察¶
- 参数量不变但秩平方提升:\(r/2 \times r/2 = r^2/4\) 的有效秩提升是核心贡献——相当于在相同"预算"下购买了 \(r/4\) 倍更强的表达力
- Khatri-Rao 的工程巧妙:Hadamard 积本不能"分配"到矩阵-向量乘法中,但通过 KR 分解巧妙避免了全矩阵实例化。这是使 ABBA 实际可用的关键技术贡献
- 与 HiRA 的本质区别:HiRA 把一个因子固定为 \(W_0\)(免费但不可学),ABBA 把两个因子都设为可学但低秩(有参数代价但更灵活)。这引发了"利用预训练权重结构 vs 自由学习"的有趣权衡讨论
局限性 / 可改进方向¶
- Khatri-Rao 重构的中间激活维度为 \(r_1 r_2\)(而非 LoRA 的 \(r\)),实际 FLOPs 有所增加
- ABBA 不像 LoRA 那样有 closed-form 最优解(无法应用 EYM 定理),优化依赖梯度下降
- 初始化依赖 \(W_0\) 的截断 SVD,每层需要一次 SVD 计算的前期成本
- 仅在 LLM 上验证,视觉模型和多模态模型的适用性未探索
相关工作与启发¶
- vs LoRA: ABBA 在相同参数下有效秩从 \(r\) 提升到 \(r^2/4\),是表达力的本质提升,代价是初始化和实现稍复杂
- vs HiRA: HiRA 的 Hadamard 积因子之一固定为 \(W_0\),更新与预训练权重耦合;ABBA 全部可学,泛化能力更强
- vs DoRA: DoRA 解耦方向和幅度,但更新仍为低秩;ABBA 通过 Hadamard 积突破秩限制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Hadamard 双低秩参数化+KR 高效实现是优雅的组合,秩平方提升的洞察深刻
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个模型+算术/常识推理+矩阵重构+详尽消融
- 写作质量: ⭐⭐⭐⭐⭐ 从动机到理论到实验叙述流畅,图表设计清晰
- 价值: ⭐⭐⭐⭐⭐ 作为 LoRA 的直接改进方案,简单实用且提升显著,代码开源