跳转至

MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection

会议: ACL 2025
arXiv: 2410.09103
代码: 无
领域: 其他
关键词: 参数高效微调, 离散余弦变换, 频域学习, LoRA, 模型适配

一句话总结

本文提出 MaCP——一种基于离散余弦变换(DCT)的参数高效微调方法,通过将权重变化投影到余弦频域并分层选择最关键的频率分量,在极低参数量(比 LoRA 少 99.7%)下实现了优于或媲美现有 PEFT 方法的性能。

研究背景与动机

大型语言模型虽然通用能力强,但在下游任务上的零样本表现往往不够理想,需要微调。全参数微调计算代价极其高昂(如 LLaMA 3.1-70B 需要约 500GB 显存),因此参数高效微调(PEFT)方法成为主流。

LoRA 是最具代表性的 PEFT 方法,通过低秩分解减少可训练参数。然而,LoRA 及其变体存在一个核心矛盾:参数量的减少并未直接转化为内存或计算成本的降低。LoRA 会扩大有效嵌入维度,增加 FLOPs,并需要存储高维激活和优化器状态。

最近有研究(FourierFT)探索将频域技术应用于微调,使用离散傅里叶变换(DFT)来压缩可训练参数。但 DFT 本质上适合周期信号,而语言中的长程依赖通常是非周期的。此外,DFT 在复数域运算,引入计算开销和数值不稳定性。

本文的核心洞察是:离散余弦变换(DCT)比 DFT 更适合语言数据——DCT 对非周期信号有更优的能量压缩和去相关特性,且全程在实数域操作,避免了复数运算的开销。

方法详解

整体框架

MaCP 的工作流程为:(1)用 DCT 将预训练权重矩阵变换到频域;(2)将频谱分层为低频、中频和高频三个区域;(3)从每个区域选择最关键的频率分量作为可训练参数;(4)训练结束后用 iDCT(逆变换)回到空间域更新权重。

关键设计

  1. 余弦投影(DCT 变换):给定权重矩阵 \(W[i,j]\)(大小 \(M \times N\)),通过 2D DCT 变换到频域 \(W_F[u,v]\)。低频分量(\(u\)\(v\) 较小)包含最显著的信息,是重点微调对象。DCT 的关键优势在于:能量集中在少数低频分量中,且全程使用实数运算,无需处理复数。

  2. 层次化频谱分区:基于频率点 \((u,v)\) 到原点的欧氏距离 \(d(u,v) = \sqrt{u^2 + v^2}\),将频谱划分为三个区域:

    • 低频 \(\mathcal{M}_{\text{low}}\)\(d \leq d_{\max}/3\),捕捉全局模式,包含大部分能量
    • 中频 \(\mathcal{M}_{\text{mid}}\)\(d_{\max}/3 < d \leq 2d_{\max}/3\),捕捉中等尺度结构
    • 高频 \(\mathcal{M}_{\text{high}}\)\(d > 2d_{\max}/3\),捕捉细节特征
  3. 混合选择策略:在每个分区内,采用能量优先 + 随机探索的混合策略。先按能量值选择前 \(n_{\mathcal{M}} \times \delta\)(默认 \(\delta=0.7\))个分量,再随机选剩余部分。最终通过分层采样平衡各分区的高能量分量和多样性。

  4. iDCT 空间域回馈:仅更新选定的频率分量 \(\Delta W_F\),然后通过 iDCT 变换回空间域得到权重更新 \(\Delta W_T = \text{iDCT}(\Delta W_F) \times \alpha\),与原始权重合并。

损失函数 / 训练策略

MaCP 使用与下游任务对应的标准损失函数(交叉熵等),核心创新在于参数化方式而非损失函数。训练时仅有 \(n\) 个频率分量需要梯度更新。

内存效率分析:MaCP 的激活内存为 \(B \cdot S \cdot H + B \cdot n\),而 LoRA 需要 \(2 \times B \cdot S \cdot H\)。当 \(n \ll S \cdot H\) 时(如 \(n=1000\) vs \(S \cdot H = 2048 \times 4096\)),MaCP 的激活内存节省超过 50%。此外,优化器状态和梯度存储也大幅减少。

实验关键数据

主实验

自然语言理解(RoBERTa-Large, GLUE):

方法 可训练参数 SST-2 MRPC CoLA QNLI RTE STS-B 平均
Full FT 356M 96.3 90.9 68.0 94.7 86.6 92.4 88.11
LoRA 0.8M 96.2 90.2 68.2 94.8 85.2 92.3 87.82
FourierFT 0.048M 96.0 90.9 67.1 94.4 87.4 91.9 87.95
MaCP 0.034M 96.2 90.9 67.7 94.5 87.4 92.0 88.12

指令微调(LLaMA2-13B):

方法 可训练参数 MT-Bench Vicuna
LoRA 250.3M 5.77 7.38
DoRA 264.5M 5.79 7.47
FourierFT 0.08M 5.82 7.49
MaCP 0.056M 5.93 7.55

文本摘要(BART-Large):

方法 参数量 XSUM (R-1/R-2/R-L) CNN/DM (R-1/R-2/R-L)
Full FT 415M 45.14/22.27/37.25 44.16/21.28/40.90
LoRA 8.6M 43.95/20.72/35.68 45.03/21.84/42.15
MaCP 0.17M 45.21/22.19/37.10 45.09/21.97/42.29

消融实验

频谱分区策略(RoBERTa-Base + ViT-B 综合):

配置 MRPC CoLA CIFAR100 EuroSAT 说明
仅低频 90.1 63.6 91.6 98.9 丢失精细信息
低频+高频 89.4 64.1 91.7 98.9 忽略中频细节
MaCP(三分区) 89.7 64.6 91.7 99.1 最优平衡
四分区 88.9 62.9 91.1 98.7 过度划分降低性能

表达能力对比(合成分类任务,相同参数量):

方法 收敛速度 最终准确率 稳定性
LoRA (r=1) ~75%(无法收敛到 100%) 大幅震荡
FourierFT (n=128) ~500 epoch ~100% 较稳定
MaCP (n=90) ~450 epoch 100% 最稳定

关键发现

  1. 极致参数效率:MaCP 在 LLaMA2-7B 上仅需 0.045M 参数(LoRA 的 0.03%),不仅在 NLU、NLG 任务上达到 SOTA,还在摘要任务上超越了全参数微调。
  2. DCT 优于 DFT:在相同参数预算下,MaCP 始终优于 FourierFT。DCT 的实值非周期分解与语言数据结构更匹配。
  3. 跨模态泛化:MaCP 不仅适用于 NLP 任务,在图像分类(ViT)和视频理解(VL-BART)上同样有效。
  4. 三分区是最优策略:消融实验表明三分区(低/中/高频)效果最好,过少(仅低频)或过多(四分区)分区都会降低性能。
  5. 内存使用大幅降低:相比 LoRA,MaCP 在 LLaMA3.1-8B 上的 GPU 内存使用显著减少。

亮点与洞察

  • DCT 相比 DFT 的优势论述清晰有力:非周期性、实数域、能量压缩更优。这为频域 PEFT 方法奠定了更好的理论基础。
  • 层次化分区+混合选择策略的设计兼顾了能量集中性和多样性,比简单的 top-k 选择更鲁棒。
  • 在合成任务上的表达能力对比实验非常直观,清楚展示了频域方法相比 LoRA 在参数受限时的优势。
  • 跨越 NLU、NLG、摘要、指令微调、视觉、视频六大任务类型的全面评估,证明了方法的通用性。

局限与展望

  • DCT 变换和 iDCT 本身引入的额外推理开销未被充分讨论。虽然训练参数少,但频域变换的计算成本可能抵消部分收益。
  • 频率分量数 \(n\) 和能量比例 \(\delta\) 是需要调节的超参数,不同任务最优值可能不同。
  • 仅与基础的 LoRA 对比,未与更新的 PEFT 方法(如 GaLore、LISA 等)进行比较。
  • 未探讨与量化技术(如 QLoRA)深度结合时的表现。

相关工作与启发

  • LoRA(Hu et al., 2022):低秩适配的奠基性工作,MaCP 在频域提供了一种全新的参数化视角。
  • FourierFT(Gao et al., 2024):首次将频域方法引入 PEFT,但受限于 DFT 的复数域和周期性假设。MaCP 通过 DCT 解决了这些问题。
  • LaMDA(Azizi et al., 2024):低维适配方法,在降低梯度和激活内存方面有贡献,但参数效率不如 MaCP。
  • VeRA(Kopiczko et al., 2023):通过共享随机矩阵+缩放向量减少参数,是另一种极端参数高效方法。

评分

  • 新颖性: ⭐⭐⭐⭐ DCT 替代 DFT 用于 PEFT 是自然但有效的改进,层次化分区策略设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 六大任务类型、多种模型规模、详细消融,实验覆盖极其全面
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,算法伪代码完整,但部分数学符号可以更精简
  • 价值: ⭐⭐⭐⭐ 对资源受限场景下的模型微调有实际意义,但能否在工业级大模型上验证仍需观察

相关论文