DenseLoRA: Dense Low-Rank Adaptation of Large Language Models¶

会议: ACL 2025
arXiv: 2505.23808
代码: https://github.com/mulin-ahu/DenseLoRA
领域: 模型压缩
关键词: 参数高效微调, LoRA, 低秩适配, 表示微调, 参数冗余

一句话总结¶

本文提出DenseLoRA，通过引入跨层共享的Encoder-Decoder进行隐藏表示的压缩与重建，用一个稠密的小型低秩矩阵替代LoRA中两个冗余的低秩矩阵来进行适配，仅用0.01%可训练参数在LLaMA3-8B上达到83.8%准确率，超越了LoRA用0.70%参数达到的80.8%。

LoRA通过低秩矩阵分解（\(\Delta W = BA\)）大幅减少了可训练参数量，是目前最流行的参数高效微调方法。但研究发现LoRA低秩矩阵中存在大量冗余权重：许多参数在训练过程中增量接近零，并未对适配做出有意义的贡献。

现有LoRA变体（如AdaLoRA、DoRA等）试图通过选择性地识别重要权重来解决冗余问题，但仍然受限于传统的双低秩矩阵框架。本文提出一个根本性的问题：能否开发一种利用更稠密结构、用更少参数实现更好性能的低秩适配方法？

核心idea是：不仅修改权重矩阵，还对隐藏表示本身进行精炼。受表示微调（Representation Fine-tuning）的启发，将低秩适配与表示压缩相结合。

DenseLoRA的适配过程分为三阶段流水线：(1) Encoder压缩隐藏表示；(2) 稠密低秩矩阵M对压缩表示进行适配；(3) Decoder将适配后的表示重建回原始维度。关键创新点在于Encoder-Decoder是跨所有适配层共享的，而每层拥有独立的适配矩阵M。

Encoder压缩模块:
- 使用全连接网络 \(W_e \in \mathbb{R}^{r \times k}\) 将隐藏表示 \(h \in \mathbb{R}^k\) 压缩为低维表示 \(h' \in \mathbb{R}^r\)
- 后接激活函数 \(\sigma(\cdot)\)
- 用Kaiming初始化
- 跨所有适配层共享，减少参数冗余
稠密低秩适配矩阵:
- 每层使用独立的方阵 \(M \in \mathbb{R}^{r \times r}\) 进行适配
- 与LoRA的 \(B \times A\)（两个矩阵乘积）不同，DenseLoRA使用一个小的稠密方阵
- 虽然是 \(r \times r\) 的小矩阵，但由于共享了Encoder-Decoder的压缩和重建功能，实际学到的是更有效的适配
- Kaiming初始化
Decoder重建模块:
- 使用 \(W_d \in \mathbb{R}^{d \times r}\) 将适配后的表示重建回原始维度
- 后接激活函数
- 零初始化（确保初始时不干扰前向传播）
- 与Encoder共享，跨层共享
参数量分析:
- LoRA: \(|\Theta| = l \times (d+k) \times r\)（l为适配层数）
- DenseLoRA: \(|\Theta| = (d+k+l \times r) \times r\)
- 实际对比：LLaMA2-7B, r=16时，LoRA需28M参数，DenseLoRA仅需0.9M，30倍压缩

整体适配公式：\(\hat{h} = W_0 h + Decoder(M \cdot Encoder(h))\)

使用标准的交叉熵损失进行微调。Encoder用Kaiming初始化，Decoder用零初始化确保训练初始稳定。训练在4×NVIDIA 3090 24GB GPU上完成。

方法	参数量(%)	BoolQ	PIQA	HellaS.	WinoG.	ARC-e	ARC-c	OBQA	Avg.
LoRA	0.70	70.8	85.2	91.7	84.3	84.2	71.2	79.0	80.8
VeRA	0.01	62.2	81.6	54.5	6.18	84.4	67.2	64.6	67.7
LoKr	0.01	65.1	81.6	92.0	82.1	89.2	76.7	80.9	80.9
DoRA	0.71	74.6	89.3	95.5	85.6	90.5	80.4	85.8	85.2
DenseLoRA(r=16)	0.01	72.3	87.5	93.5	85.2	89.8	78.2	84.0	83.8
DenseLoRA(r=32)	0.02	74.3	88.0	94.5	86.0	89.7	78.7	85.6	84.6
DenseLoRA(r=64)	0.06	74.1	88.9	95.0	87.0	90.0	79.2	85.6	85.0

方法	参数量(%)	GSM8K	AQUA	AddSub	SVAMP	Avg.
LoRA	0.70	47.1	18.1	90.6	71.9	56.9
DenseLoRA(r=32)	0.02	45.5	20.5	73.5	92.1	57.5
DenseLoRA(r=64)	0.06	47.2	19.7	92.4	74.5	58.5