GORP: Continual Gradient Low-Rank Projection Fine-Tuning for LLMs¶

会议: ACL 2025
arXiv: 2507.02503
代码: https://github.com/Wcxwcxw/GORP
领域: LLM效率
关键词: continual learning, gradient projection, LoRA, catastrophic forgetting, low-rank optimization

一句话总结¶

GORP 提出将全秩参数和 LoRA 低秩参数的梯度统一投影到低秩梯度子空间中联合更新，利用 Adam 一阶矩隐式构建跨任务共享梯度空间来缓解灾难性遗忘，在 T5 和 LLaMA2 上持续学习性能接近多任务联合训练上界。

研究背景与动机¶

领域现状：LLM 持续微调需要在多个顺序到来的任务上学习，面临灾难性遗忘问题。LoRA 因参数高效被广泛用于持续学习
现有痛点：
LoRA 的低秩限制约束了表达能力，搜索空间受限导致新任务学习不足
O-LoRA、MIGU 等显式参数约束方法（正则化、稀疏化）无法动态适应新任务的梯度空间变化
直接在原始高维空间计算隐式特征空间协方差成本过高
核心矛盾：LoRA 的低秩限制了可塑性（学新任务），而显式约束限制了稳定性适应梯度空间变化的能力
切入角度：梯度矩阵在训练中天然具有低秩结构，可以在低秩空间中高效操作
核心idea一句话：将全秩参数的梯度也投影到低秩空间，与 LoRA 梯度在统一的共享梯度子空间中联合更新

方法详解¶

整体框架¶

GORP 分两部分：(1) 梯度共享空间构建：训练每个任务后，用 Adam 一阶矩的 SVD 构建该任务的主梯度方向，逐步扩展跨任务共享梯度空间；(2) 低秩投影优化：训练新任务时，将全秩和 LoRA 参数的梯度都投影到与旧任务正交的方向，在扩大搜索空间的同时防止遗忘。

关键设计¶

梯度共享空间构建（Gradient Shared Space）:
做什么：用 Adam 一阶矩 \(M_t\) 近似每个任务的主梯度方向，SVD 分解后取前 \(k\) 个基向量
核心思路：对任务 1，\(M_1^l = U_1^l \Sigma_1^l (V_1^l)^T\)，取满足 \(\|(M_1^l)_k\|_F^2 > \epsilon_t^l \|M_1^l\|_F^2\) 的前 \(k\) 个向量构成 \(\mathcal{S}_1^l\)。后续任务先投影到正交空间：\(\hat{M}_2^l = M_2^l - \mathcal{S}^l(\mathcal{S}^l)^T M_2^l\)，再 SVD 扩展空间
设计动机：一阶矩融合了历史梯度信息，比随机采样隐层特征更能代表任务的整体梯度方向
全秩+低秩联合低秩投影:
做什么：对 LoRA 参数和全秩参数的梯度分别投影到共享空间的正交互补中
核心思路：LoRA 梯度投影 \(G_{A,l}' = G_{A,l} - \mathcal{S}_{t-1}^{A,l}(\mathcal{S}_{t-1}^{A,l})^T G_{A,l}\)；全秩梯度先 SVD 降维到 \(k\) 维 \(G_{t,l}' = U_{l,k}^T G_{t,l} V_{l,k}\)，再投影到正交方向 \(P_{t,l} = G_{t,l}' - \mathcal{S}_{t-1}^l(\mathcal{S}_{t-1}^l)^T G_{t,l}'\)
设计动机：全秩参数增加搜索空间灵活性，低秩投影保证效率和遗忘缓解
隐式约束 vs 显式约束:
做什么：用梯度正交性（隐式）替代参数正交性（显式）
核心思路：GORP 不直接约束参数变化，而是约束梯度方向与旧任务正交，让模型自由选择最优参数更新幅度
设计动机：梯度正交性更能保证学习方向不干扰旧任务，且允许参数在正交方向上灵活变化

计算效率设计¶

全秩参数的 SVD 每 \(T=10\) 步执行一次（非每步），大幅降低开销
低秩投影使投入 Adam 优化的矩阵维度为 \(k \times k\)（\(k=8\)），远小于原始维度

实验关键数据¶

主实验（T5-Large）¶

方法	标准CL (3 orders avg)	大量任务 (15 tasks, 3 orders avg)
O-LoRA	75.8	69.6
MIGU	76.6	70.0
N-LoRA	78.8	72.4
GORP	79.8	76.0
MTL (上界)	80.0	-

LLaMA2-7B 结果¶

方法	Order 1-3 avg	BWT (forgetting)
O-LoRA	76.1	-7.8%
N-LoRA	77.6	-4.9%
GORP	78.6	-0.8%

消融实验¶

配置	Avg Performance	说明
B (仅 LoRA 投影)	baseline	基线
B+L (加全秩投影)	+0.7%	全秩参数扩大搜索空间
B+S (加梯度空间)	+2.0%	共享梯度空间贡献最大
B+L+S (完整 GORP)	+3.9%	各组件互补

关键发现¶

接近 MTL 上界：标准 CL 上 GORP(79.8%) 接近 MTL(80.0%)，几乎消除了持续学习 gap
遗忘大幅减少：BWT 从 O-LoRA 的 -7.8% 降至 -0.8%（T5）
未见任务泛化：比 O-LoRA 提升 26.2%，比 N-LoRA 提升 7.0%
计算高效：训练时间与 O-LoRA 相当，FLOPs 为 O-LoRA 的 1/550
任务数增多时优势更大：15 个任务时比 N-LoRA 高 3.6%，说明动态梯度空间更好应对长序列任务

亮点与洞察¶

梯度正交 vs 参数正交的洞察很深刻：显式约束参数正交是"保守"策略，容易限制新任务学习；隐式约束梯度正交是"灵活"策略，只控制更新方向不控制更新幅度
一阶矩近似梯度空间是巧妙的工程设计：Adam 的动量项自然累积了任务的梯度统计信息，比额外计算协方差矩阵高效得多
全秩+低秩互补的思路可迁移：在其他需要参数高效微调的场景中，不必完全放弃全秩参数，可以在低秩子空间中操作全秩梯度

局限性 / 可改进方向¶

随任务数增多，梯度空间维度持续增长，可能出现维度爆炸
多个超参数需要调节：\(k=8\)、\(\alpha\)、\(T\)、不同学习率
未验证 sequential editing 场景和在线学习场景
更大模型（70B+）的可扩展性未知

评分¶

新颖性: ⭐⭐⭐⭐ 梯度空间共享+全秩低秩联合投影是有意义的创新
实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种任务序列、多个 benchmark、详细消融
写作质量: ⭐⭐⭐⭐ 方法推导清晰，实验设计系统
价值: ⭐⭐⭐⭐ 对 LLM 持续学习有重要参考价值

在持续微调 benchmark 上持续优于 O-LoRA、MIGU、N-LoRA 等方法，有效平衡可塑性和稳定性。

亮点与洞察¶

全秩和低秩参数在统一低秩梯度空间中联合优化——兼顾了表达能力和效率
用一阶矩代替隐藏特征协方差——计算成本大幅降低

局限性 / 可改进方向¶

梯度 SVD 分解的频率 \(T\) 需要手动设置
仅在 LLaMA-7B 级别验证

评分¶

新颖性: ⭐⭐⭐⭐ 全秩+低秩统一更新和隐式梯度空间构建有创新
实验充分度: ⭐⭐⭐⭐ 多种持续学习设置对比
写作质量: ⭐⭐⭐⭐ 算法伪代码清晰
价值: ⭐⭐⭐⭐ 持续微调是重要方向，GORP 提供了简洁有效的方案

GORP: Continual Gradient Low-Rank Projection Fine-Tuning for LLMs¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

计算效率设计¶

实验关键数据¶

主实验（T5-Large）¶

LLaMA2-7B 结果¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶