Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape¶

会议: ICML2025
arXiv: 2409.14396
代码: nblt/Flat-LoRA
领域: image_generation
关键词: LoRA, 参数高效微调, 平坦极小值, 随机权重扰动, 贝叶斯期望损失

一句话总结¶

提出 Flat-LoRA，通过在全参数空间中引入基于贝叶斯期望损失的随机权重扰动，使 LoRA 收敛到全参数空间中更平坦的极小值区域，提升域内和域外泛化性能，且几乎不增加训练时间和显存开销。

研究背景与动机¶

LoRA 将微调限制在低秩矩阵空间 \(\mathcal{M}_r\) 内。训练完成后，低秩适应 \(\Delta W = BA\) 会合并到预训练权重 \(W\) 中用于推理。现有改进（AdaLoRA、DoRA、PiSSA 等）关注的都是 LoRA 参数空间内部的优化质量，忽视了 LoRA 空间与全参数空间之间的关系。

核心观察：在 LoRA 参数空间中看起来平坦的极小值，在全参数空间中可能存在尖锐方向（Figure 1）。尖锐极小值会损害泛化能力，尤其是面对分布偏移时。

一个自然的想法是将 SAM（Sharpness-Aware Minimization）与 LoRA 结合（LoRA-SAM），但存在三个问题：

优化方向受限：LoRA-SAM 仅在 \(A\) 的列空间内优化 sharpness，覆盖不到全参数空间

训练成本翻倍：SAM 需要额外梯度步，对大模型不友好

需存储全参数扰动：违背参数高效微调的初衷

方法详解¶

1. 全参数空间的平坦性目标¶

理想目标是直接在全参数空间做 SAM：

\[\min_{A,B} \max_{\|\varepsilon_W\|_F \leq \rho} L(W + BA + \varepsilon_W)\]

其中 \(\varepsilon_W \in \mathbb{R}^{m \times n}\) 是全参数空间的对抗扰动。但直接求解需额外梯度步且要存储全量扰动。

2. 贝叶斯期望损失松弛¶

将 max 松弛为期望，得到 Flat-LoRA 的核心目标函数：

\[\min_{A,B} \mathbb{E}_{(\varepsilon_W)_{i,j} \sim \mathcal{N}(0, \sigma^2)} L(W + BA + \varepsilon_W)\]

由 Lemma 3.1：若 \(L(W)\) 是 \(\alpha\)-Lipschitz 且 \(\beta\)-smooth 的，则期望损失函数是 \(\min\{\alpha/\sigma, \beta\}\)-smooth 的——即噪声方差 \(\sigma\) 越大，损失面越光滑，促使优化收敛到更平坦区域。

实际操作：每步训练采样一个噪声矩阵 \(\varepsilon_W\)，计算扰动后的梯度来更新 \(A, B\)。无需额外梯度步，训练时间几乎不变。

3. 精细化随机扰动生成策略¶

扰动并非简单的 i.i.d. 高斯噪声，而是考虑两个因素：

Filter 结构：按行（filter）生成噪声，范数大的 filter 给更大扰动
输入维度缩放：用 \(1/n\) 缩放方差，确保前向传播中扰动引入的方差与输入维度无关

最终扰动生成公式：

\[(\varepsilon_W)_{i,j} \sim \mathcal{N}\left(0, \frac{\sigma^2}{n} \|W'_{i,:}\|_2^2\right)\]

其中 \(W' = W + BA\) 是合并后权重。由 Proposition 3.2，这种设计使输出方差增大 \(1+\sigma^2\) 倍，与输入维度 \(n\) 无关。

4. 基于随机种子的显存优化¶

全参数扰动 \(\varepsilon_W\) 本身很大，但实际只需存储： - 随机种子（一个整数） - 每个 filter 的范数 \(\{\|W'_{i,:}\|_2^2\}\)（\(m\) 个标量，不到 LoRA 参数的 \(1/r\)）

训练时按种子重新生成噪声，反向传播后用种子复原并移除扰动，显存开销极小。

5. 渐进式扰动增强¶

实践中建议逐步增大扰动强度 \(\sigma\)：从 0 线性增长到目标值，使模型先收敛到较好区域再逐步平滑化。

与 LoRA-SAM 的理论对比¶

LoRA-SAM 在全参数空间的等效扰动为：

\[\varepsilon_W \approx c \, (\nabla_W L) A^\top A\]

（当 \(B\) 较小时）——只覆盖 \(A\) 的列空间，是全参数空间的极小子空间。Flat-LoRA 的随机扰动覆盖全空间所有方向。

实验关键数据¶

NLP：T5-base 微调 GLUE 子集（r=8/16）¶

方法	MNLI	SST2	CoLA	QNLI	MRPC	Avg
Full FT	86.19	94.15	82.84	93.10	89.22	89.10
LoRA (r=8)	86.24	94.25	82.87	93.06	88.56	88.99
Flat-LoRA (r=8)	86.20	94.75	83.61	93.16	89.59	89.47
LoRA (r=16)	86.49	94.52	82.89	92.97	88.89	89.15
Flat-LoRA (r=16)	86.51	94.84	84.08	93.28	89.83	89.72

Flat-LoRA r=16 平均比 LoRA 高 +0.57，且在 CoLA（+1.19）和 MRPC（+0.94）改进尤为明显。

CV：CLIP ViT-B/32 微调图像分类¶

方法	CIFAR-10	CIFAR-100	Cars	SVHN	DTD	Avg
LoRA (r=8)	97.90	87.74	73.22	97.49	76.86	86.64
Flat-LoRA (r=8)	98.09	88.64	74.17	97.59	77.51	87.20
LoRA (r=16)	97.99	88.12	73.80	97.56	77.34	86.92
Flat-LoRA (r=16)	98.21	89.27	74.89	97.71	78.24	87.66

CV 上 r=16 平均提升 +0.74，Cars 数据集提升超过 1 个百分点。

其他任务¶

论文还覆盖了数学推理、代码生成、对话、指令跟随和文生图等任务，均观察到一致的提升，说明方法的通用性。

与其他 LoRA 变体的正交性¶

Flat-LoRA 可以即插即用地与 DoRA、PiSSA、LoRA-GA 等结合，在这些变体基础上进一步带来增益。

亮点与洞察¶

问题洞察深刻：从 LoRA 空间 vs 全参数空间的 landscape 差异切入，揭示了一个被广泛忽视但重要的问题
方法极简高效：用贝叶斯期望损失替代 SAM 的 min-max，避免了额外梯度步；用随机种子存储避免了显存膨胀——工程实现优雅
理论推导清晰：从 LoRA-SAM 的等效扰动推导出其局限性，再到 filter-wise 扰动的方差分析，环环相扣
通用性强：NLP + CV + 生成，跨模态一致有效

局限与展望¶

超参数 \(\sigma\) 的选取：虽然建议渐进式增强，但最优增长策略和目标值仍需逐任务调参
理论保证有限：期望损失仅是 min-max 的松弛，不是等价替代；平坦性与泛化的理论联系本身也存争议（Dinh et al., 2017 的反例）
单次噪声采样：每步仅采样一个 \(\varepsilon_W\)，方差较大，理论上多次采样平均更好但成本更高
未与最新方法充分对比：如 LoRA-Pro（梯度对齐）等同期工作未做直接实验对比
仅验证了 LoRA 框架：是否能推广到 Adapter、Prefix-Tuning 等其他 PEFT 方法未探讨

评分¶

维度	分数 (1-5)	说明
创新性	4	问题视角新颖，方法本身是已有技术的工程化组合
理论深度	3.5	推导清晰但不算深刻，核心定理引用自先前工作
实验充分性	4.5	NLP/CV/生成多场景覆盖，消融实验齐全
实用性	5	即插即用，几乎零额外成本，代码开源
写作质量	4	结构清晰，Figure 1 直观易懂
总分	4.2	高质量工作，实用价值突出

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评