ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models¶

会议: ICLR 2026
arXiv: 2505.14238
代码: https://github.com/CERT-Lab/abba
领域: 模型压缩 / PEFT
关键词: 参数高效微调, LoRA, Hadamard积, 低秩适应, Khatri-Rao分解

一句话总结¶

提出 ABBA 适配器，将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\)，在相同参数预算下实现远高于 LoRA 的有效秩（\(r_1 \cdot r_2\) vs \(r\)），并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率，在算术和常识推理任务上显著超越现有 PEFT 方法。

研究背景与动机¶

领域现状：LoRA 是最流行的 PEFT 方法，通过 \(\Delta W = BA\)（\(B \in \mathbb{R}^{m \times r}, A \in \mathbb{R}^{r \times n}\)）将更新限制在秩-\(r\) 子空间中。
现有痛点：LoRA 的更新严格受限于秩-\(r\)，表达力天然有限。HiRA 通过 \(\Delta W = W_0 \odot (BA)\) 引入 Hadamard 积提升有效秩，但更新与冻结权重 \(W_0\) 耦合——当目标更新与 \(W_0\) 的元素比值不是低秩时，HiRA 无优势。
核心矛盾：高表达力（高秩更新）需要更多参数，但 PEFT 的核心约束是参数量少。如何在相同参数预算下突破秩限制？
本文要解决什么？ 在保持 LoRA 级别参数效率的同时大幅提升更新的表达力和有效秩。
切入角度：将 Hadamard 积的两个因子都设为可学习的低秩矩阵，完全解耦与预训练权重的依赖。利用 Khatri-Rao 分解避免实例化全尺寸矩阵。
核心 idea 一句话：两个秩-\(r/2\) 矩阵的 Hadamard 积有效秩可达 \(r^2/4\)，是同参数下 LoRA 秩 \(r\) 的平方量级提升。

方法详解¶

整体框架¶

在每个目标层中，用 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\) 替代 LoRA 的 \(\Delta W = BA\)。四个矩阵 \(A_1, B_1, A_2, B_2\) 构成"ABBA"。为公平比较设 \(r_1 = r_2 = r/2\)，使参数量与 LoRA 的秩-\(r\) 相同。

关键设计¶

Hadamard 积的双低秩参数化:
做什么：将更新表达为两个独立低秩矩阵的 Hadamard（逐元素）积
核心思路：\(\text{rank}(W_1 \odot W_2) \leq r_1 \cdot r_2\)，所以 ABBA 的有效秩上界为 \(r_1 \cdot r_2 = r^2/4\)，远高于 LoRA 的 \(r\)。矩阵重构实验验证 ABBA 的重构误差一致低于同参数 LoRA
设计动机：与 HiRA 不同，两个因子都完全可学习，不与 \(W_0\) 绑定。这使更新能力不受预训练权重结构的限制
Khatri-Rao 高效实现 (Theorem 1):
做什么：用 Khatri-Rao 分解将 ABBA 转换为 LoRA 形式，避免实例化全尺寸矩阵
核心思路：定义 \(B_{\text{kr}} = B_1 \odot_r B_2 \in \mathbb{R}^{m \times r_1 r_2}\) 和 \(A_{\text{kr}} = (A_1^\top \odot_r A_2^\top)^\top\)，则 \(\Delta W x = B_{\text{kr}}(A_{\text{kr}} x)\)，中间激活仅 \(r_1 r_2\) 维
设计动机：朴素实现需要构造两个 \(m \times n\) 矩阵再做 Hadamard 积，内存代价等同全微调。KR 重构使计算和存储都保持低秩级别
SVD 初始化 + 秩稳定性:
做什么：用 \(W_0\) 的截断 SVD 初始化 \((B_1, A_1)\)，\((B_2, A_2)\) 用标准 LoRA 初始化
核心思路：EYM 定理保证截断 SVD 是最优秩-\(r_1\) 近似。缩放因子 \(s\) 需根据有效秩 \(r_1 r_2\) 调整（不是 \(r\)），论文证明了秩稳定性
设计动机：混合初始化让有意义的低秩子空间锚定更新方向，同时保留第二对矩阵的任务特定探索能力

损失函数 / 训练策略¶

同标准微调损失。与 LoRA 使用相同的训练超参数，仅将适配器结构替换为 ABBA。代码开源。

实验关键数据¶

主实验¶

算术推理 (GSM8K, MATH 等):

方法	参数量	GSM8K	MATH	平均↑
LoRA (r=16)	基准	基线	基线	基线
DoRA	同	略优	略优	略优
HiRA	同	优于LoRA	优于LoRA	优于LoRA
ABBA (r=8+8)	同	显著最优	显著最优	显著最优

常识推理 (多数据集平均):

方法	LLaMA-7B	LLaMA-3-8B	说明
LoRA	基线	基线
ABBA	+2-3pp	+2-3pp	全面领先

消融实验¶

配置	性能	说明
\(r_1 = r_2 = r/2\)	最佳	等分秩最大化 \(r_1 r_2\)
\(r_1 \neq r_2\)	略差	不对称分配非最优
随机初始化 \((B_1, A_1)\)	较差	SVD 初始化关键
无缩放因子	训练不稳定	秩稳定性需要适当缩放

关键发现¶

矩阵重构实验证实 ABBA 在各类矩阵上一致优于同参数 LoRA，验证了更高的表达力
ABBA 的实际收敛速度快于 LoRA 和 HiRA（MNIST toy 实验视觉化展示）
Khatri-Rao 重构使 ABBA 的实际内存甚至优于 HiRA（HiRA 需要存储完整 \(W_0\)）
秩稳定性分析表明 \(s = 1/(r_1 r_2)\) 是适当的缩放，与 rsLoRA 的 \(1/r\) 推广一致

亮点与洞察¶

参数量不变但秩平方提升：\(r/2 \times r/2 = r^2/4\) 的有效秩提升是核心贡献——相当于在相同"预算"下购买了 \(r/4\) 倍更强的表达力
Khatri-Rao 的工程巧妙：Hadamard 积本不能"分配"到矩阵-向量乘法中，但通过 KR 分解巧妙避免了全矩阵实例化。这是使 ABBA 实际可用的关键技术贡献
与 HiRA 的本质区别：HiRA 把一个因子固定为 \(W_0\)（免费但不可学），ABBA 把两个因子都设为可学但低秩（有参数代价但更灵活）。这引发了"利用预训练权重结构 vs 自由学习"的有趣权衡讨论

局限性 / 可改进方向¶

Khatri-Rao 重构的中间激活维度为 \(r_1 r_2\)（而非 LoRA 的 \(r\)），实际 FLOPs 有所增加
ABBA 不像 LoRA 那样有 closed-form 最优解（无法应用 EYM 定理），优化依赖梯度下降
初始化依赖 \(W_0\) 的截断 SVD，每层需要一次 SVD 计算的前期成本
仅在 LLM 上验证，视觉模型和多模态模型的适用性未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ Hadamard 双低秩参数化+KR 高效实现是优雅的组合，秩平方提升的洞察深刻
实验充分度: ⭐⭐⭐⭐⭐ 4 个模型+算术/常识推理+矩阵重构+详尽消融
写作质量: ⭐⭐⭐⭐⭐ 从动机到理论到实验叙述流畅，图表设计清晰
价值: ⭐⭐⭐⭐⭐ 作为 LoRA 的直接改进方案，简单实用且提升显著，代码开源