跳转至

GORP: Continual Gradient Low-Rank Projection Fine-Tuning for LLMs

会议: ACL 2025
arXiv: 2507.02503
代码: https://github.com/Wcxwcxw/GORP
领域: LLM效率
关键词: continual learning, gradient projection, LoRA, catastrophic forgetting, low-rank optimization

一句话总结

GORP 提出将全秩参数和 LoRA 低秩参数的梯度统一投影到低秩梯度子空间中联合更新,利用 Adam 一阶矩隐式构建跨任务共享梯度空间来缓解灾难性遗忘,在 T5 和 LLaMA2 上持续学习性能接近多任务联合训练上界。

研究背景与动机

  1. 领域现状:LLM 持续微调需要在多个顺序到来的任务上学习,面临灾难性遗忘问题。LoRA 因参数高效被广泛用于持续学习
  2. 现有痛点
  3. LoRA 的低秩限制约束了表达能力,搜索空间受限导致新任务学习不足
  4. O-LoRA、MIGU 等显式参数约束方法(正则化、稀疏化)无法动态适应新任务的梯度空间变化
  5. 直接在原始高维空间计算隐式特征空间协方差成本过高
  6. 核心矛盾:LoRA 的低秩限制了可塑性(学新任务),而显式约束限制了稳定性适应梯度空间变化的能力
  7. 切入角度:梯度矩阵在训练中天然具有低秩结构,可以在低秩空间中高效操作
  8. 核心idea一句话:将全秩参数的梯度也投影到低秩空间,与 LoRA 梯度在统一的共享梯度子空间中联合更新

方法详解

整体框架

GORP 分两部分:(1) 梯度共享空间构建:训练每个任务后,用 Adam 一阶矩的 SVD 构建该任务的主梯度方向,逐步扩展跨任务共享梯度空间;(2) 低秩投影优化:训练新任务时,将全秩和 LoRA 参数的梯度都投影到与旧任务正交的方向,在扩大搜索空间的同时防止遗忘。

关键设计

  1. 梯度共享空间构建(Gradient Shared Space):
  2. 做什么:用 Adam 一阶矩 \(M_t\) 近似每个任务的主梯度方向,SVD 分解后取前 \(k\) 个基向量
  3. 核心思路:对任务 1,\(M_1^l = U_1^l \Sigma_1^l (V_1^l)^T\),取满足 \(\|(M_1^l)_k\|_F^2 > \epsilon_t^l \|M_1^l\|_F^2\) 的前 \(k\) 个向量构成 \(\mathcal{S}_1^l\)。后续任务先投影到正交空间:\(\hat{M}_2^l = M_2^l - \mathcal{S}^l(\mathcal{S}^l)^T M_2^l\),再 SVD 扩展空间
  4. 设计动机:一阶矩融合了历史梯度信息,比随机采样隐层特征更能代表任务的整体梯度方向

  5. 全秩+低秩联合低秩投影:

  6. 做什么:对 LoRA 参数和全秩参数的梯度分别投影到共享空间的正交互补中
  7. 核心思路:LoRA 梯度投影 \(G_{A,l}' = G_{A,l} - \mathcal{S}_{t-1}^{A,l}(\mathcal{S}_{t-1}^{A,l})^T G_{A,l}\);全秩梯度先 SVD 降维到 \(k\)\(G_{t,l}' = U_{l,k}^T G_{t,l} V_{l,k}\),再投影到正交方向 \(P_{t,l} = G_{t,l}' - \mathcal{S}_{t-1}^l(\mathcal{S}_{t-1}^l)^T G_{t,l}'\)
  8. 设计动机:全秩参数增加搜索空间灵活性,低秩投影保证效率和遗忘缓解

  9. 隐式约束 vs 显式约束:

  10. 做什么:用梯度正交性(隐式)替代参数正交性(显式)
  11. 核心思路:GORP 不直接约束参数变化,而是约束梯度方向与旧任务正交,让模型自由选择最优参数更新幅度
  12. 设计动机:梯度正交性更能保证学习方向不干扰旧任务,且允许参数在正交方向上灵活变化

计算效率设计

  • 全秩参数的 SVD 每 \(T=10\) 步执行一次(非每步),大幅降低开销
  • 低秩投影使投入 Adam 优化的矩阵维度为 \(k \times k\)\(k=8\)),远小于原始维度

实验关键数据

主实验(T5-Large)

方法 标准CL (3 orders avg) 大量任务 (15 tasks, 3 orders avg)
O-LoRA 75.8 69.6
MIGU 76.6 70.0
N-LoRA 78.8 72.4
GORP 79.8 76.0
MTL (上界) 80.0 -

LLaMA2-7B 结果

方法 Order 1-3 avg BWT (forgetting)
O-LoRA 76.1 -7.8%
N-LoRA 77.6 -4.9%
GORP 78.6 -0.8%

消融实验

配置 Avg Performance 说明
B (仅 LoRA 投影) baseline 基线
B+L (加全秩投影) +0.7% 全秩参数扩大搜索空间
B+S (加梯度空间) +2.0% 共享梯度空间贡献最大
B+L+S (完整 GORP) +3.9% 各组件互补

关键发现

  • 接近 MTL 上界:标准 CL 上 GORP(79.8%) 接近 MTL(80.0%),几乎消除了持续学习 gap
  • 遗忘大幅减少:BWT 从 O-LoRA 的 -7.8% 降至 -0.8%(T5)
  • 未见任务泛化:比 O-LoRA 提升 26.2%,比 N-LoRA 提升 7.0%
  • 计算高效:训练时间与 O-LoRA 相当,FLOPs 为 O-LoRA 的 1/550
  • 任务数增多时优势更大:15 个任务时比 N-LoRA 高 3.6%,说明动态梯度空间更好应对长序列任务

亮点与洞察

  • 梯度正交 vs 参数正交的洞察很深刻:显式约束参数正交是"保守"策略,容易限制新任务学习;隐式约束梯度正交是"灵活"策略,只控制更新方向不控制更新幅度
  • 一阶矩近似梯度空间是巧妙的工程设计:Adam 的动量项自然累积了任务的梯度统计信息,比额外计算协方差矩阵高效得多
  • 全秩+低秩互补的思路可迁移:在其他需要参数高效微调的场景中,不必完全放弃全秩参数,可以在低秩子空间中操作全秩梯度

局限性 / 可改进方向

  • 随任务数增多,梯度空间维度持续增长,可能出现维度爆炸
  • 多个超参数需要调节:\(k=8\)\(\alpha\)\(T\)、不同学习率
  • 未验证 sequential editing 场景和在线学习场景
  • 更大模型(70B+)的可扩展性未知

相关工作与启发

  • vs O-LoRA: O-LoRA 用显式参数约束,静态;GORP 用隐式梯度约束,动态自适应
  • vs MIGU: MIGU 用稀疏化(只更新增长单元),GORP 用梯度投影,更灵活
  • vs N-LoRA: N-LoRA 扩展 LoRA 的正交子空间,但仍在低秩约束内;GORP 引入全秩参数扩大搜索空间

评分

  • 新颖性: ⭐⭐⭐⭐ 梯度空间共享+全秩低秩联合投影是有意义的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种任务序列、多个 benchmark、详细消融
  • 写作质量: ⭐⭐⭐⭐ 方法推导清晰,实验设计系统
  • 价值: ⭐⭐⭐⭐ 对 LLM 持续学习有重要参考价值

在持续微调 benchmark 上持续优于 O-LoRA、MIGU、N-LoRA 等方法,有效平衡可塑性和稳定性。

亮点与洞察

  • 全秩和低秩参数在统一低秩梯度空间中联合优化——兼顾了表达能力和效率
  • 用一阶矩代替隐藏特征协方差——计算成本大幅降低

局限性 / 可改进方向

  • 梯度 SVD 分解的频率 \(T\) 需要手动设置
  • 仅在 LLaMA-7B 级别验证

相关工作与启发

  • 详见论文原文 Related Work 部分的详细对比。

评分

  • 新颖性: ⭐⭐⭐⭐ 全秩+低秩统一更新和隐式梯度空间构建有创新
  • 实验充分度: ⭐⭐⭐⭐ 多种持续学习设置对比
  • 写作质量: ⭐⭐⭐⭐ 算法伪代码清晰
  • 价值: ⭐⭐⭐⭐ 持续微调是重要方向,GORP 提供了简洁有效的方案