RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates¶

基本信息¶

会议: ACL 2025
arXiv: 2410.10075
代码: Kowsher/RoCoFT
机构: Nokia Bell Labs / UCF / UIC
领域: 参数高效微调 / LLM
关键词: PEFT, LoRA, row-column updates, NTK, parameter-efficient finetuning

一句话总结¶

提出 RoCoFT，一种极简的参数高效微调方法：仅更新 Transformer 权重矩阵中少量行或列的参数，在 GLUE、QA、摘要生成和常识/数学推理等任务上达到与 LoRA 等 SOTA PEFT 方法相当的精度，同时更省内存和计算，并通过 Neural Tangent Kernel 理论解释了其有效性。

研究背景与动机¶

全量微调的困境：随着 LLM 参数规模增长（数十亿到数千亿），为每个下游任务存储完整模型副本不切实际，且全量微调容易过拟合和灾难性遗忘
PEFT 方法的发展：LoRA 通过低秩矩阵分解实现高效微调，Adapter 通过插入额外模块，Prefix/Prompt Tuning 通过添加可学习向量。这些方法虽有效但仍引入额外参数或结构
核心问题：能否设计更简单的 PEFT 方法？更简单的方法不仅能提升效率，还能帮助我们理解 PEFT 为何有效
关键观察：预训练阶段已经学到了大部分关键特征，微调只需调整极少量参数

方法详解¶

核心思想¶

RoCoFT 的方法极其直接：只更新权重矩阵中少量行或少量列的参数，其余参数完全冻结。

数学形式化¶

对 Transformer 中的权重矩阵 $\mathbf{W}_q, \mathbf{W}_k, \mathbf{W}_v, \mathbf{W}_{ff}$，RoCoFT 的更新可表示为：

\[\mathbf{W} = \mathbf{W}_0 + \mathbf{R} \quad \text{（行更新）}$$ $$\mathbf{W} = \mathbf{W}_0 + \mathbf{C} \quad \text{（列更新）}\]

其中 $\mathbf{R}$ 和 $\mathbf{C}$ 是受限权重矩阵，至多 $r$ 行或 $r$ 列为非零。

与 LoRA 的对比¶

特性	LoRA	RoCoFT
更新形式	$\mathbf{W} = \mathbf{W}_0 + \mathbf{B}\mathbf{A}$	$\mathbf{W} = \mathbf{W}_0 + \mathbf{R}$（或 $\mathbf{C}$）
额外参数	需要额外矩阵 $\mathbf{A}$, $\mathbf{B}$	无需额外参数，原地更新
参数量（rank=r, d×k矩阵）	$r(d+k)$	$r \cdot k$（行）或 $r \cdot d$（列）
前向计算	需矩阵乘法 $\mathbf{B}\mathbf{A}$	无额外计算
初始化问题	需考虑 $\mathbf{A}$, $\mathbf{B}$ 的初始化	无初始化问题

行/列选择策略¶

默认策略：从头开始按序选择行或列
关键发现：不同选择策略对性能影响很小，即任意行或列均可产生相似结果，体现了方法的鲁棒性

NTK 理论分析¶

使用 Neural Tangent Kernel (NTK) 理论解释 RoCoFT 的有效性
核心发现：由少量行/列参数构造的 NTK 在数值上接近全参数 NTK
使用 NTK 核逻辑回归在多个任务上验证，受限参数集的核与全参数核的分类性能相当
这说明：预训练阶段已获取了大部分微调所需的关键特征

实验¶

实验设置¶

中等模型：RoBERTa-Base/Large (GLUE)、DeBERTa-v3 (SQuAD)、BART-Large (摘要)
大模型：Bloom-7B、GPT-J-6B、LLaMA2-7B、LLaMA2-13B（常识推理 + 数学推理，共 13 个数据集）
基线：LoRA、AdaLoRA、IA3、Prefix-Tuning、Prompt-Tuning、BitFit、Adapter、MAM Adapter、LoRA-XS、VeRA、Diff Pruning 等

GLUE 基准结果（RoBERTa-Base）¶

方法	可训练参数	平均分
Full FT	124.6M	83.56
LoRA (r=8)	0.89M	84.32
AdaLoRA	1.03M	84.06
BitFit	0.083M	84.22
SFT	0.90M	85.03
RoCoFT3-Row	0.249M	85.65
RoCoFT3-Column	0.249M	85.55

RoCoFT3 以仅 0.249M 参数（约 LoRA 的 28%）达到所有方法的最高平均分。

LLM 推理任务结果（LLaMA2-7B）¶

方法	可训练参数	常识推理平均	数学推理平均
LoRA	24.30M	75.53	78.52
AdaLoRA	24.90M	74.81	77.48
RoCoFT3-Row	13.47M	76.46	79.54
RoCoFT3-Column	13.47M	76.45	79.35

在 LLaMA2-7B 上，RoCoFT 以约 55% 的参数量超越 LoRA。

LLaMA2-13B 结果（选录）¶

RoCoFT3-Row 在 13B 模型上同样表现出色，在多个任务上超越 LoRA 和 AdaLoRA
可训练参数约 24M（LoRA 为 44M），参数效率提升约 45%

消融实验¶

行 vs 列：行更新和列更新性能相近，无显著差异
选择策略的影响：随机选择、从头选择、从尾选择、均匀间隔选择等策略效果相似，验证了方法的鲁棒性
Rank 的影响：Rank 从 1 到 3 性能逐步提升，Rank=3 已足够达到优秀性能
应用层次：在 Q、K、V 和 FFN 所有权重矩阵上应用效果最佳

NTK 实验验证¶

在 RoBERTa-Base 上比较全参数 NTK 与受限参数 NTK 的核分类性能
受限 NTK 在 GLUE 任务上与全参数 NTK 的性能差距仅 1-2%
从核方法视角证明了行/列参数足以捕获微调所需的核心信息

亮点与洞察¶

极简设计：可能是已知最简单的 PEFT 方法——不添加任何额外参数或模块，直接更新原始权重矩阵的子集
理论支撑：NTK 分析提供了优雅的理论解释，而不仅是纯经验性的
鲁棒性：对行/列选择策略不敏感，降低了超参搜索的负担
效率优势：无额外矩阵乘法（vs LoRA），无初始化问题，原地更新减少了内存开销
深层洞察：实验表明预训练已学到绝大部分关键特征，微调的作用只是微调极少量参数的方向

局限性¶

理论局限：NTK 理论严格来说只适用于无限宽网络，对有限宽度的实际网络只是近似
Rank 上限：当需要更大容量适应时（如领域差距大的任务），少量行/列可能不足
未探索更大模型：实验最大到 13B，未在 70B+ 的模型上验证
任务覆盖：主要评估 NLU 和推理任务，未涉及复杂生成任务（如对话、创意写作）
与更新方法的组合：未探索与量化（QLoRA）等技术的结合

评分¶

⭐⭐⭐⭐ (4/5)

创新性：方法极其简单但有效，提出了 PEFT "能简单到什么程度"的有价值问题（+1）
理论深度：NTK 分析为方法提供了理论根基，超越了纯经验工作（+0.5）
实验全面性：从中等模型到大模型，覆盖 NLU/推理/摘要等多种任务（+0.5）
实用性：实现简单、无额外开销、对选择策略鲁棒（+0.5）
扣分：未在超大模型上验证、与 QLoRA 等组合未探索、某些复杂任务的适用性未知（-1）