MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection¶
会议: ACL 2025
arXiv: 2410.09103
代码: 无
领域: 其他
关键词: 参数高效微调, 离散余弦变换, 频域学习, LoRA, 模型适配
一句话总结¶
本文提出 MaCP——一种基于离散余弦变换(DCT)的参数高效微调方法,通过将权重变化投影到余弦频域并分层选择最关键的频率分量,在极低参数量(比 LoRA 少 99.7%)下实现了优于或媲美现有 PEFT 方法的性能。
研究背景与动机¶
大型语言模型虽然通用能力强,但在下游任务上的零样本表现往往不够理想,需要微调。全参数微调计算代价极其高昂(如 LLaMA 3.1-70B 需要约 500GB 显存),因此参数高效微调(PEFT)方法成为主流。
LoRA 是最具代表性的 PEFT 方法,通过低秩分解减少可训练参数。然而,LoRA 及其变体存在一个核心矛盾:参数量的减少并未直接转化为内存或计算成本的降低。LoRA 会扩大有效嵌入维度,增加 FLOPs,并需要存储高维激活和优化器状态。
最近有研究(FourierFT)探索将频域技术应用于微调,使用离散傅里叶变换(DFT)来压缩可训练参数。但 DFT 本质上适合周期信号,而语言中的长程依赖通常是非周期的。此外,DFT 在复数域运算,引入计算开销和数值不稳定性。
本文的核心洞察是:离散余弦变换(DCT)比 DFT 更适合语言数据——DCT 对非周期信号有更优的能量压缩和去相关特性,且全程在实数域操作,避免了复数运算的开销。
方法详解¶
整体框架¶
MaCP 的工作流程为:(1)用 DCT 将预训练权重矩阵变换到频域;(2)将频谱分层为低频、中频和高频三个区域;(3)从每个区域选择最关键的频率分量作为可训练参数;(4)训练结束后用 iDCT(逆变换)回到空间域更新权重。
关键设计¶
-
余弦投影(DCT 变换):给定权重矩阵 \(W[i,j]\)(大小 \(M \times N\)),通过 2D DCT 变换到频域 \(W_F[u,v]\)。低频分量(\(u\)、\(v\) 较小)包含最显著的信息,是重点微调对象。DCT 的关键优势在于:能量集中在少数低频分量中,且全程使用实数运算,无需处理复数。
-
层次化频谱分区:基于频率点 \((u,v)\) 到原点的欧氏距离 \(d(u,v) = \sqrt{u^2 + v^2}\),将频谱划分为三个区域:
- 低频 \(\mathcal{M}_{\text{low}}\):\(d \leq d_{\max}/3\),捕捉全局模式,包含大部分能量
- 中频 \(\mathcal{M}_{\text{mid}}\):\(d_{\max}/3 < d \leq 2d_{\max}/3\),捕捉中等尺度结构
- 高频 \(\mathcal{M}_{\text{high}}\):\(d > 2d_{\max}/3\),捕捉细节特征
-
混合选择策略:在每个分区内,采用能量优先 + 随机探索的混合策略。先按能量值选择前 \(n_{\mathcal{M}} \times \delta\)(默认 \(\delta=0.7\))个分量,再随机选剩余部分。最终通过分层采样平衡各分区的高能量分量和多样性。
-
iDCT 空间域回馈:仅更新选定的频率分量 \(\Delta W_F\),然后通过 iDCT 变换回空间域得到权重更新 \(\Delta W_T = \text{iDCT}(\Delta W_F) \times \alpha\),与原始权重合并。
损失函数 / 训练策略¶
MaCP 使用与下游任务对应的标准损失函数(交叉熵等),核心创新在于参数化方式而非损失函数。训练时仅有 \(n\) 个频率分量需要梯度更新。
内存效率分析:MaCP 的激活内存为 \(B \cdot S \cdot H + B \cdot n\),而 LoRA 需要 \(2 \times B \cdot S \cdot H\)。当 \(n \ll S \cdot H\) 时(如 \(n=1000\) vs \(S \cdot H = 2048 \times 4096\)),MaCP 的激活内存节省超过 50%。此外,优化器状态和梯度存储也大幅减少。
实验关键数据¶
主实验¶
自然语言理解(RoBERTa-Large, GLUE):
| 方法 | 可训练参数 | SST-2 | MRPC | CoLA | QNLI | RTE | STS-B | 平均 |
|---|---|---|---|---|---|---|---|---|
| Full FT | 356M | 96.3 | 90.9 | 68.0 | 94.7 | 86.6 | 92.4 | 88.11 |
| LoRA | 0.8M | 96.2 | 90.2 | 68.2 | 94.8 | 85.2 | 92.3 | 87.82 |
| FourierFT | 0.048M | 96.0 | 90.9 | 67.1 | 94.4 | 87.4 | 91.9 | 87.95 |
| MaCP | 0.034M | 96.2 | 90.9 | 67.7 | 94.5 | 87.4 | 92.0 | 88.12 |
指令微调(LLaMA2-13B):
| 方法 | 可训练参数 | MT-Bench | Vicuna |
|---|---|---|---|
| LoRA | 250.3M | 5.77 | 7.38 |
| DoRA | 264.5M | 5.79 | 7.47 |
| FourierFT | 0.08M | 5.82 | 7.49 |
| MaCP | 0.056M | 5.93 | 7.55 |
文本摘要(BART-Large):
| 方法 | 参数量 | XSUM (R-1/R-2/R-L) | CNN/DM (R-1/R-2/R-L) |
|---|---|---|---|
| Full FT | 415M | 45.14/22.27/37.25 | 44.16/21.28/40.90 |
| LoRA | 8.6M | 43.95/20.72/35.68 | 45.03/21.84/42.15 |
| MaCP | 0.17M | 45.21/22.19/37.10 | 45.09/21.97/42.29 |
消融实验¶
频谱分区策略(RoBERTa-Base + ViT-B 综合):
| 配置 | MRPC | CoLA | CIFAR100 | EuroSAT | 说明 |
|---|---|---|---|---|---|
| 仅低频 | 90.1 | 63.6 | 91.6 | 98.9 | 丢失精细信息 |
| 低频+高频 | 89.4 | 64.1 | 91.7 | 98.9 | 忽略中频细节 |
| MaCP(三分区) | 89.7 | 64.6 | 91.7 | 99.1 | 最优平衡 |
| 四分区 | 88.9 | 62.9 | 91.1 | 98.7 | 过度划分降低性能 |
表达能力对比(合成分类任务,相同参数量):
| 方法 | 收敛速度 | 最终准确率 | 稳定性 |
|---|---|---|---|
| LoRA (r=1) | 慢 | ~75%(无法收敛到 100%) | 大幅震荡 |
| FourierFT (n=128) | ~500 epoch | ~100% | 较稳定 |
| MaCP (n=90) | ~450 epoch | 100% | 最稳定 |
关键发现¶
- 极致参数效率:MaCP 在 LLaMA2-7B 上仅需 0.045M 参数(LoRA 的 0.03%),不仅在 NLU、NLG 任务上达到 SOTA,还在摘要任务上超越了全参数微调。
- DCT 优于 DFT:在相同参数预算下,MaCP 始终优于 FourierFT。DCT 的实值非周期分解与语言数据结构更匹配。
- 跨模态泛化:MaCP 不仅适用于 NLP 任务,在图像分类(ViT)和视频理解(VL-BART)上同样有效。
- 三分区是最优策略:消融实验表明三分区(低/中/高频)效果最好,过少(仅低频)或过多(四分区)分区都会降低性能。
- 内存使用大幅降低:相比 LoRA,MaCP 在 LLaMA3.1-8B 上的 GPU 内存使用显著减少。
亮点与洞察¶
- DCT 相比 DFT 的优势论述清晰有力:非周期性、实数域、能量压缩更优。这为频域 PEFT 方法奠定了更好的理论基础。
- 层次化分区+混合选择策略的设计兼顾了能量集中性和多样性,比简单的 top-k 选择更鲁棒。
- 在合成任务上的表达能力对比实验非常直观,清楚展示了频域方法相比 LoRA 在参数受限时的优势。
- 跨越 NLU、NLG、摘要、指令微调、视觉、视频六大任务类型的全面评估,证明了方法的通用性。
局限与展望¶
- DCT 变换和 iDCT 本身引入的额外推理开销未被充分讨论。虽然训练参数少,但频域变换的计算成本可能抵消部分收益。
- 频率分量数 \(n\) 和能量比例 \(\delta\) 是需要调节的超参数,不同任务最优值可能不同。
- 仅与基础的 LoRA 对比,未与更新的 PEFT 方法(如 GaLore、LISA 等)进行比较。
- 未探讨与量化技术(如 QLoRA)深度结合时的表现。
相关工作与启发¶
- LoRA(Hu et al., 2022):低秩适配的奠基性工作,MaCP 在频域提供了一种全新的参数化视角。
- FourierFT(Gao et al., 2024):首次将频域方法引入 PEFT,但受限于 DFT 的复数域和周期性假设。MaCP 通过 DCT 解决了这些问题。
- LaMDA(Azizi et al., 2024):低维适配方法,在降低梯度和激活内存方面有贡献,但参数效率不如 MaCP。
- VeRA(Kopiczko et al., 2023):通过共享随机矩阵+缩放向量减少参数,是另一种极端参数高效方法。
评分¶
- 新颖性: ⭐⭐⭐⭐ DCT 替代 DFT 用于 PEFT 是自然但有效的改进,层次化分区策略设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 六大任务类型、多种模型规模、详细消融,实验覆盖极其全面
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,算法伪代码完整,但部分数学符号可以更精简
- 价值: ⭐⭐⭐⭐ 对资源受限场景下的模型微调有实际意义,但能否在工业级大模型上验证仍需观察
相关论文¶
- [ACL 2025] Low-Rank Interconnected Adaptation across Layers
- [ACL 2025] Minimal Pair-Based Evaluation of Code-Switching
- [ACL 2025] Consultant Decoding: Yet Another Synergistic Mechanism
- [ACL 2025] CoLA: Collaborative Low-Rank Adaptation
- [ACL 2025] SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL