GORP: Continual Gradient Low-Rank Projection Fine-Tuning for LLMs¶
会议: ACL 2025
arXiv: 2507.02503
代码: https://github.com/Wcxwcxw/GORP
领域: LLM效率
关键词: continual learning, gradient projection, LoRA, catastrophic forgetting, low-rank optimization
一句话总结¶
GORP 提出将全秩参数和 LoRA 低秩参数的梯度统一投影到低秩梯度子空间中联合更新,利用 Adam 一阶矩隐式构建跨任务共享梯度空间来缓解灾难性遗忘,在 T5 和 LLaMA2 上持续学习性能接近多任务联合训练上界。
研究背景与动机¶
- 领域现状:LLM 持续微调需要在多个顺序到来的任务上学习,面临灾难性遗忘问题。LoRA 因参数高效被广泛用于持续学习
- 现有痛点:
- LoRA 的低秩限制约束了表达能力,搜索空间受限导致新任务学习不足
- O-LoRA、MIGU 等显式参数约束方法(正则化、稀疏化)无法动态适应新任务的梯度空间变化
- 直接在原始高维空间计算隐式特征空间协方差成本过高
- 核心矛盾:LoRA 的低秩限制了可塑性(学新任务),而显式约束限制了稳定性适应梯度空间变化的能力
- 切入角度:梯度矩阵在训练中天然具有低秩结构,可以在低秩空间中高效操作
- 核心idea一句话:将全秩参数的梯度也投影到低秩空间,与 LoRA 梯度在统一的共享梯度子空间中联合更新
方法详解¶
整体框架¶
GORP 分两部分:(1) 梯度共享空间构建:训练每个任务后,用 Adam 一阶矩的 SVD 构建该任务的主梯度方向,逐步扩展跨任务共享梯度空间;(2) 低秩投影优化:训练新任务时,将全秩和 LoRA 参数的梯度都投影到与旧任务正交的方向,在扩大搜索空间的同时防止遗忘。
关键设计¶
- 梯度共享空间构建(Gradient Shared Space):
- 做什么:用 Adam 一阶矩 \(M_t\) 近似每个任务的主梯度方向,SVD 分解后取前 \(k\) 个基向量
- 核心思路:对任务 1,\(M_1^l = U_1^l \Sigma_1^l (V_1^l)^T\),取满足 \(\|(M_1^l)_k\|_F^2 > \epsilon_t^l \|M_1^l\|_F^2\) 的前 \(k\) 个向量构成 \(\mathcal{S}_1^l\)。后续任务先投影到正交空间:\(\hat{M}_2^l = M_2^l - \mathcal{S}^l(\mathcal{S}^l)^T M_2^l\),再 SVD 扩展空间
-
设计动机:一阶矩融合了历史梯度信息,比随机采样隐层特征更能代表任务的整体梯度方向
-
全秩+低秩联合低秩投影:
- 做什么:对 LoRA 参数和全秩参数的梯度分别投影到共享空间的正交互补中
- 核心思路:LoRA 梯度投影 \(G_{A,l}' = G_{A,l} - \mathcal{S}_{t-1}^{A,l}(\mathcal{S}_{t-1}^{A,l})^T G_{A,l}\);全秩梯度先 SVD 降维到 \(k\) 维 \(G_{t,l}' = U_{l,k}^T G_{t,l} V_{l,k}\),再投影到正交方向 \(P_{t,l} = G_{t,l}' - \mathcal{S}_{t-1}^l(\mathcal{S}_{t-1}^l)^T G_{t,l}'\)
-
设计动机:全秩参数增加搜索空间灵活性,低秩投影保证效率和遗忘缓解
-
隐式约束 vs 显式约束:
- 做什么:用梯度正交性(隐式)替代参数正交性(显式)
- 核心思路:GORP 不直接约束参数变化,而是约束梯度方向与旧任务正交,让模型自由选择最优参数更新幅度
- 设计动机:梯度正交性更能保证学习方向不干扰旧任务,且允许参数在正交方向上灵活变化
计算效率设计¶
- 全秩参数的 SVD 每 \(T=10\) 步执行一次(非每步),大幅降低开销
- 低秩投影使投入 Adam 优化的矩阵维度为 \(k \times k\)(\(k=8\)),远小于原始维度
实验关键数据¶
主实验(T5-Large)¶
| 方法 | 标准CL (3 orders avg) | 大量任务 (15 tasks, 3 orders avg) |
|---|---|---|
| O-LoRA | 75.8 | 69.6 |
| MIGU | 76.6 | 70.0 |
| N-LoRA | 78.8 | 72.4 |
| GORP | 79.8 | 76.0 |
| MTL (上界) | 80.0 | - |
LLaMA2-7B 结果¶
| 方法 | Order 1-3 avg | BWT (forgetting) |
|---|---|---|
| O-LoRA | 76.1 | -7.8% |
| N-LoRA | 77.6 | -4.9% |
| GORP | 78.6 | -0.8% |
消融实验¶
| 配置 | Avg Performance | 说明 |
|---|---|---|
| B (仅 LoRA 投影) | baseline | 基线 |
| B+L (加全秩投影) | +0.7% | 全秩参数扩大搜索空间 |
| B+S (加梯度空间) | +2.0% | 共享梯度空间贡献最大 |
| B+L+S (完整 GORP) | +3.9% | 各组件互补 |
关键发现¶
- 接近 MTL 上界:标准 CL 上 GORP(79.8%) 接近 MTL(80.0%),几乎消除了持续学习 gap
- 遗忘大幅减少:BWT 从 O-LoRA 的 -7.8% 降至 -0.8%(T5)
- 未见任务泛化:比 O-LoRA 提升 26.2%,比 N-LoRA 提升 7.0%
- 计算高效:训练时间与 O-LoRA 相当,FLOPs 为 O-LoRA 的 1/550
- 任务数增多时优势更大:15 个任务时比 N-LoRA 高 3.6%,说明动态梯度空间更好应对长序列任务
亮点与洞察¶
- 梯度正交 vs 参数正交的洞察很深刻:显式约束参数正交是"保守"策略,容易限制新任务学习;隐式约束梯度正交是"灵活"策略,只控制更新方向不控制更新幅度
- 一阶矩近似梯度空间是巧妙的工程设计:Adam 的动量项自然累积了任务的梯度统计信息,比额外计算协方差矩阵高效得多
- 全秩+低秩互补的思路可迁移:在其他需要参数高效微调的场景中,不必完全放弃全秩参数,可以在低秩子空间中操作全秩梯度
局限性 / 可改进方向¶
- 随任务数增多,梯度空间维度持续增长,可能出现维度爆炸
- 多个超参数需要调节:\(k=8\)、\(\alpha\)、\(T\)、不同学习率
- 未验证 sequential editing 场景和在线学习场景
- 更大模型(70B+)的可扩展性未知
相关工作与启发¶
- vs O-LoRA: O-LoRA 用显式参数约束,静态;GORP 用隐式梯度约束,动态自适应
- vs MIGU: MIGU 用稀疏化(只更新增长单元),GORP 用梯度投影,更灵活
- vs N-LoRA: N-LoRA 扩展 LoRA 的正交子空间,但仍在低秩约束内;GORP 引入全秩参数扩大搜索空间
评分¶
- 新颖性: ⭐⭐⭐⭐ 梯度空间共享+全秩低秩联合投影是有意义的创新
- 实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种任务序列、多个 benchmark、详细消融
- 写作质量: ⭐⭐⭐⭐ 方法推导清晰,实验设计系统
- 价值: ⭐⭐⭐⭐ 对 LLM 持续学习有重要参考价值
在持续微调 benchmark 上持续优于 O-LoRA、MIGU、N-LoRA 等方法,有效平衡可塑性和稳定性。
亮点与洞察¶
- 全秩和低秩参数在统一低秩梯度空间中联合优化——兼顾了表达能力和效率
- 用一阶矩代替隐藏特征协方差——计算成本大幅降低
局限性 / 可改进方向¶
- 梯度 SVD 分解的频率 \(T\) 需要手动设置
- 仅在 LLaMA-7B 级别验证
相关工作与启发¶
- 详见论文原文 Related Work 部分的详细对比。
评分¶
- 新颖性: ⭐⭐⭐⭐ 全秩+低秩统一更新和隐式梯度空间构建有创新
- 实验充分度: ⭐⭐⭐⭐ 多种持续学习设置对比
- 写作质量: ⭐⭐⭐⭐ 算法伪代码清晰
- 价值: ⭐⭐⭐⭐ 持续微调是重要方向,GORP 提供了简洁有效的方案