Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions¶

会议: ACL 2026
arXiv: 2604.11841
代码: https://github.com/zhangwenhao6/PERA
领域: 参数高效微调/模型压缩
关键词: 低秩适配, 多项式展开, 高阶特征交互, 参数高效微调, LoRA改进

一句话总结¶

本文提出 PERA（Polynomial Expansion Rank Adaptation），通过在低秩因子的参数空间中引入结构化多项式展开（平方项和交叉项），将 LoRA 的线性适配空间扩展为多项式流形，在不增加秩或推理开销的前提下显著提升权重更新的表达能力，在常识推理和 NLU 任务上一致优于 LoRA/DoRA/HiRA 等方法。

研究背景与动机¶

领域现状：参数高效微调（PEFT）已成为大语言模型适配的标准范式。其中 LoRA 通过将权重更新限制在低秩子空间 \(\Delta W = BA\) 实现高效适配，但其严格双线性结构仅捕捉低秩因子之间的一阶线性依赖，限制了模型对非线性和高阶参数交互的建模能力。

现有痛点：(1) LoRA 的权重更新 \(\Delta W = \sum_{i=1}^{r} \mathbf{b}_i \mathbf{a}_i^T\) 是秩一矩阵的线性组合，表达能力受限于秩 \(r\)；(2) DoRA 通过幅度-方向分解改进但仍是线性变换；(3) MoRA 通过压缩-变换-解压缩实现高秩适配但引入额外开销；(4) HiRA 通过与预训练权重的 Hadamard 调制丰富表示，但更新机制仍对可训练参数线性，且依赖外部权重耦合。

核心矛盾：从函数逼近角度看，一阶线性函数 \(f(x) = c + c_1 x\) 与包含高阶项的多项式函数 \(f(x) = c + c_1 x + c_2 x^2 + \cdots\) 在表达能力上存在本质差异。如果将 LoRA 视为权重更新的一阶线性逼近，其表达能力的局限性是根本性的。

本文目标：在不增加秩和推理成本的前提下，通过引入高阶特征交互来增强低秩适配的表达能力。

切入角度：从经典特征工程中的多项式特征展开技术获得灵感——将其应用于低秩因子的参数空间而非输入特征空间。

核心 idea：对低秩矩阵 \(B\) 和 \(A\) 分别进行多项式展开和基于 Hadamard 的多项式展开，生成平方项（\(\mathbf{b}_i \odot \mathbf{b}_i\)）和交叉项（\(\mathbf{b}_i \odot \mathbf{b}_j\)），通过矩阵拼接（而非加法）避免额外推理开销，同时将适配空间从线性子空间扩展为多项式流形。

方法详解¶

整体框架¶

PERA 沿用 LoRA 的分解框架，将权重更新分解为 \(B \in \mathbb{R}^{m \times r}\) 和 \(A \in \mathbb{R}^{r \times n}\)。核心改进在于组合前对两个因子进行多项式展开：对 \(B\) 进行标准二阶多项式展开 \(\text{Poly}^2(B)\)，对 \(A\) 进行基于 Hadamard 的多项式展开 \(\text{Poly}_H^2(A)\)（带可学习系数 \(\mathbf{h}\) 保证稳定性），最终更新为 \(\Delta W = \text{Poly}^2(B) \cdot \text{Poly}_H^2(A)\)。

关键设计¶

参数空间多项式展开:
- 功能：将低秩因子从 \(r\) 维扩展到 \(2r + C(r,2)\) 维，引入高阶非线性交互
- 核心思路：对 \(B = [\mathbf{b}_1, \ldots, \mathbf{b}_r]\) 进行二阶多项式展开，生成 \(\hat{B} = [B; B_{square}; B_{cross}]\)，其中 \(B_{square} = \{\mathbf{b}_i \odot \mathbf{b}_i\}\) 含 \(r\) 个平方项，\(B_{cross} = \{\mathbf{b}_i \odot \mathbf{b}_j | i < j\}\) 含 \(C(r,2)\) 个交叉项。对 \(A\) 类似展开但引入可学习系数 \(h_{ij}\)（初始化为零）以保证训练稳定性。最终权重更新分解为：\(\Delta W = \sum_{i} \mathbf{b}_i \mathbf{a}_i^T + \sum_{i=j} h_{ij}(\mathbf{b}_i \odot \mathbf{b}_j)(\mathbf{a}_i^T \odot \mathbf{a}_j^T) + \sum_{i<j} h_{ij}(\mathbf{b}_i \odot \mathbf{b}_j)(\mathbf{a}_i^T \odot \mathbf{a}_j^T)\)。
- 设计动机：多项式展开是经典的特征增强技术，将其从特征空间迁移到参数空间是自然的泛化——低秩因子的列向量本身就是适配方向的"特征"，高阶交互项能捕捉这些方向之间的非线性耦合。
Hadamard 系数的零初始化策略:
- 功能：确保训练起点与 LoRA 一致，高阶项逐渐参与优化
- 核心思路：可学习系数 \(\mathbf{h} = \{h_{ij}\}\) 初始化为零，使 PERA 在训练开始时退化为标准 LoRA（当 \(\mathbf{h}=0\) 时平方项和交叉项贡献为零）。随着训练推进，模型自主学习哪些高阶交互对任务有益。LoRA 因此是 PERA 的特例。
- 设计动机：零初始化避免了高阶项在训练初期引入不稳定梯度，同时保留了完整的表达能力上界。这种"渐进式"引入非线性的策略确保了优化的平滑性。
矩阵拼接实现零推理开销:
- 功能：高阶项通过列/行拼接实现，推理时可预计算合并到权重中
- 核心思路：展开后的 \(\hat{B} \in \mathbb{R}^{m \times (2r+C(r,2))}\) 和 \(\hat{A} \in \mathbb{R}^{(2r+C(r,2)) \times n}\) 的乘积仍是 \(\mathbb{R}^{m \times n}\) 矩阵，推理时 \(\Delta W = \hat{B}\hat{A}\) 可预计算并合并到 \(W_0\) 中，因此不引入任何推理延迟。
- 设计动机：实际部署中推理效率至关重要，PERA 通过拼接而非序列加法实现高阶交互，保持了 LoRA 的推理时零开销特性。

损失函数 / 训练策略¶

使用与 LoRA 相同的下一 token 预测损失。训练时仅优化低秩矩阵 \(A\)、\(B\) 和 Hadamard 系数 \(\mathbf{h}\)，预训练权重 \(W_0\) 保持冻结。学习率 \(1 \times 10^{-4}\)，其他超参数与 HiRA 基线保持一致。\(A\) 初始化为零，\(B\) 初始化为高斯分布。

实验关键数据¶

主实验¶

模型	方法	参数量(%)	常识推理平均准确率
LLaMA2-7B	LoRA (r=32)	0.83%	77.61
LLaMA2-7B	DoRA (r=32)	0.83%	79.69
LLaMA2-7B	HiRA (r=32)	0.83%	81.42
LLaMA2-7B	PERA (r=16)	0.41%	82.61
LLaMA3-8B	LoRA (r=16)	0.35%	82.80
LLaMA3-8B	HiRA (r=16)	0.35%	86.08
LLaMA3-8B	PERA (r=16)	0.35%	87.38
Qwen2.5-7B	LoRA (r=16)	0.35%	73.80
Qwen2.5-7B	HiRA (r=16)	0.35%	85.40
Qwen2.5-7B	PERA (r=16)	0.35%	88.29

模型	方法	参数量	GLUE 平均
RoBERTa-base	LoRA	0.3M	83.40
RoBERTa-base	DeLoRA	0.3M	84.60
RoBERTa-base	PERA	0.3M	85.10
RoBERTa-large	LoRA	0.8M	87.30
RoBERTa-large	PERA	0.8M	88.13

消融实验¶

配置	权重更新公式	平均准确率
LoRA（仅一阶）	Eq.8	82.80
LoRA + 仅平方项	Eq.10	87.48
LoRA + 仅交叉项	Eq.11	86.83
PERA（平方+交叉）	Eq.9	87.38

关键发现¶

高阶项带来显著提升：PERA 在 LLaMA2-7B 上比 LoRA 高 5 个百分点（82.61% vs 77.61%），在 Qwen2.5-7B 上高 14.5 个百分点（88.29% vs 73.80%）。
平方项是最关键的高阶成分：仅添加平方项（87.48%）的提升比仅添加交叉项（86.83%）更大，且接近完整 PERA（87.38%），说明同维度非线性交互比跨维度交互更重要。
极低秩下仍表现优异：PERA 在 \(r=2\) 时仍达 86.91%，\(r=4\) 时达 87.01%，接近 \(r=16\) 的最佳结果 87.38%。这归功于多项式展开将有效秩上界从 \(r\) 提升到 \(2r + C(r,2)\)。
训练和推理开销接近 LoRA：训练内存 19.12GB vs LoRA 18.70GB，推理内存 19.70GB vs 19.50GB，远优于 DoRA（22h07m 训练时间 vs PERA 13h30m）。
仅 10% 数据即超越 LoRA 满数据：PERA 在 10% commonsense170K 上达 83.07%，超过 LoRA 在 100% 数据上的 82.80%，展现了卓越的数据效率。

亮点与洞察¶

从特征工程到参数工程的优雅迁移：将多项式特征展开从传统 ML 的输入特征空间迁移到低秩适配的参数空间，概念简洁但效果显著，是一种新颖且富有洞察力的设计思路。
LoRA 是 PERA 的特例：当 \(\mathbf{h}=0\) 时 PERA 退化为 LoRA，这不仅提供了优美的理论统一，还确保了零初始化的渐进式引入策略。
秩上界的理论提升：LoRA 的适配权重秩上界为 \(r_0 + r\)，PERA 提升为 \(r_0 + 2r + C(r,2)\)，对 \(r=16\) 来说从 \(r_0+16\) 提升到 \(r_0+152\)，理论表达能力提升近 10 倍。
Hessian 交互强度分析：通过计算二阶偏导数的交互强度矩阵，直观展示了 PERA 比 LoRA 具有更强的全局特征交互建模能力。

局限与展望¶

仅在常识推理和 GLUE 上评估，未覆盖算术推理、代码生成、多模态生成等任务。
仅采用二阶多项式展开，更高阶展开（\(k>2\)）的效果未探索。
交叉项的贡献有限（87.38% vs 仅平方项 87.48%），可能存在冗余，需更细粒度的项选择策略。
未与最新的混合专家 LoRA（如 MELoRA）或自适应秩方法（如 AdaLoRA）进行比较。
多项式展开在大秩下可能导致维度爆炸（\(C(r,2)\) 随 \(r\) 二次增长），需要研究高秩场景下的可扩展性。

评分¶

新颖性: ⭐⭐⭐⭐ 将多项式展开应用于低秩因子参数空间的思路新颖，理论分析清晰
实验充分度: ⭐⭐⭐⭐ 多模型多任务验证，秩/模块/数据量/组件消融全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数学推导严谨，与 LoRA 的关系论证优雅
价值: ⭐⭐⭐⭐ 提供了一种简单有效的 LoRA 增强方案，实用性强