Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation¶

日期: 2026-03-13
arXiv: 2603.12577
代码: EPT
领域: LLM效率 / 参数高效微调
关键词: PEFT, LoRA, Mixture-of-Experts, feature pyramid, multi-task learning

一句话总结¶

提出 EPT（Expert Pyramid Tuning），将 CV 中多尺度特征金字塔的思想引入 LoRA-MoE，通过共享元知识子空间 + 反卷积金字塔投影 + 对比学习路由，在多任务 PEFT 上超越 SOTA MoE-LoRA 变体，同时减少训练参数。

领域现状: LoRA 是主流 PEFT 方法，MoE-LoRA（如 MoELoRA、MoLA、HydraLoRA）通过多个专家 LoRA 模块 + 动态路由来处理多任务学习，缓解负迁移。
现有痛点: 现有 MoE-LoRA 使用统一架构的专家（相同 rank 和容量），忽略了任务复杂度的层次性——简单任务只需高层语义抽象，复杂推理需要细粒度句法操作。不同 rank 对不同任务效果差异显著（如 rank=4 在某些任务最优，rank=8 在另一些最优）。
核心矛盾: "一刀切"的专家设计限制了模型表达力和参数效率。独立学习每个专家的 LoRA 矩阵又导致参数冗余。
切入角度: 借鉴 CV 中 FPN（Feature Pyramid Network）的多尺度层次思想——不同尺度捕获不同粒度的特征。
核心 idea: 分解任务适应为"通用语言基础"（共享低维元知识）+ "任务特定尺度投影"（反卷积到不同维度），构建参数金字塔。

共享元知识矩阵 \(\mathbf{Z}_{meta} = \mathbf{B} \cdot \mathbf{A}\)（低维）→ N 个反卷积专家用不同核大小投影到不同尺度 → Top-k 路由选择最优组合 → 自适应 LoRA 裁剪对齐预训练参数维度。

共享元知识子空间:
- \(\mathbf{Z}_{meta} = \mathbf{B} \cdot \mathbf{A} \in \mathbb{R}^{h \times w}\)，\(h, w \ll d_{model}\)
- 编码通用语言模式，所有任务和专家共享
- 与标准 LoRA 零初始化不同，用随机高斯初始化确保非退化表示
- 设计动机：消除独立专家间的参数冗余
金字塔投影机制:
- N 个反卷积专家，第 i 个用核张量 \(\mathcal{K}_i\)（不同核大小 \(s_i\)）投影：\(\mathbf{W}_i = \text{Deconv}(\mathbf{Z}_{meta}; \mathcal{K}_i)\)
- 小核专家捕获局部细粒度模式，大核专家捕获全局语义依赖
- 核初始化为零确保初始不扰动预训练权重
- 类比 FPN：不同分辨率的特征图→不同粒度的参数矩阵
自适应 LoRA 裁剪器:
- 问题：反卷积输出维度需与预训练参数对齐
- 解决：对 \(\mathbf{B}\) 和 \(\mathbf{A}\) 切片到目标维度 \((h_t, w_t)\)，生成尺度特定的元知识种子
- 维度感知缩放因子 \(d_t / T\) 平衡共享参数和任务特定参数的更新频率
对比学习任务嵌入:
- 为每个任务学习专用嵌入，用对比优化确保嵌入的区分性
- 指导路由器精准选择专家——区分冲突任务、共享关联任务的知识

方法	参数/任务	MNLI	SST-2	CoLA	平均
LoRA (r=8)	0.39M	85.8	93.2	62.8	85.1
MoELoRA	~0.4M	86.3	93.8	63.7	85.9
EPT	更少	86.5+	94.2+	65+	86.5+
Full FT	28M	85.7	92.5	54.9	83.8

跨领域类比的力量：将 CV 中成熟的 FPN 多尺度思想迁移到 NLP 的 PEFT，用反卷积替代独立 LoRA——很自然地解决了"任务需要不同 rank"的问题
重参数化能力使其可以保持 LoRA 的零额外推理开销优势
元知识共享 + 尺度特定投影的分解思想可以推广到其他 PEFT 方法