跳转至

GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning

会议: AAAI 2026
arXiv: 2511.17582
代码: 待确认
领域: 模型微调 / PEFT
关键词: 参数高效微调, token感知门控, LoRA, 熵正则化, 梯度调制

一句话总结

提出 GateRA,在 PEFT 方法(LoRA/DoRA/HiRA)中引入轻量级 token 感知门控模块,通过 sigmoid 门控动态调整每个 token 的适配强度——对分布内/简单 token 抑制更新以保留预训练知识,对挑战性 token 放大适配。结合熵正则化促进近二值门控决策,在常识推理(+1.1%)、对话和数学推理上一致优于 HiRA。

研究背景与动机

  1. 领域现状:PEFT 方法(LoRA、DoRA、HiRA)通过低秩适配矩阵高效微调大模型,但所有 token 共享相同的适配强度——不区分是否需要适配。

  2. 现有痛点:预训练已充分学习的知识(如常见词汇的语义)不需要大幅调整,而新任务特有的知识(如特定领域术语、推理步骤)需要更强的适配。统一强度导致要么适配不足、要么预训练知识被不必要地覆盖。

  3. 核心矛盾:PEFT 的适配强度应该是 token 依赖的,但现有方法缺乏这种细粒度控制。

  4. 本文要解决什么? 在几乎不增加参数的前提下,实现 token 级别的自适应调制。

  5. 切入角度:在 HiRA 的乘法低秩更新中插入 sigmoid 门控函数 \(g(x)\),使得 \(W' = (g(x) \cdot AB + 1) \cdot W_0\)

  6. 核心 idea 一句话:用轻量门控实现"需要适配的 token 多适配,不需要的保持预训练权重"。

方法详解

整体框架

在 HiRA 基础上,对每个 transformer 层的 FC 和 QKV 投影引入门控模块。输入 token \(x\) 经门控 \(g(x) = \sigma(W_g x + b_g)\) 产生 \((0,1)\) 标量,调制低秩更新 \(AB\) 的强度。

关键设计

  1. Token 感知门控模块:
  2. 做什么:为每个 token 动态决定适配强度
  3. 核心思路:\(g(x) = \sigma(W_g x + b_g)\)\(W_g \in \mathbb{R}^{1 \times d}\),参数量仅 \(d+1\)(如 4097 个参数)。\(g(x) \approx 0\) 时输出 \(\approx W_0 x\)(保留预训练),\(g(x) \approx 1\) 时输出完全适配版本
  4. 设计动机:实现连续可微的软梯度掩码——理论证明 \(\|\partial\mathcal{L}/\partial AB\|_F \leq g(x) \cdot \|W_0\| \cdot \|\partial\mathcal{L}/\partial y\| \cdot \|x\|\),即门控值直接约束适配矩阵的梯度幅度

  5. 熵正则化:

  6. 做什么:促进门控值趋向 0 或 1 的近二值分布
  7. 核心思路:\(\mathcal{L}_{\text{ent}} = -\frac{1}{N}\sum [g \log g + (1-g) \log(1-g)]\),将门控值视为 Bernoulli 概率并最小化其熵
  8. 设计动机:避免门控值聚集在 0.5 附近(模糊决策),提高可解释性和稀疏性

  9. 阶段敏感行为(自动涌现):

  10. 做什么:门控自动学会区分 prefill 和 decoding 阶段
  11. 核心思路:可视化表明 prefill token 的门控值接近 0(保留预训练),decoding 阶段的门控值更高(需要更多适配)
  12. 设计动机:未显式设计,是门控+熵正则化的涌现行为

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{\text{task}} + \lambda \mathcal{L}_{\text{ent}}\),任务损失+熵正则化。仅额外增加 0.01% 参数量。

实验关键数据

主实验(常识推理,8个基准平均)

模型 方法 额外参数% 平均准确率
LLaMA-2-7B LoRA 0.83 77.61
LLaMA-2-7B HiRA 0.83 81.42
LLaMA-2-7B GateRA 0.84 82.52
LLaMA-3-8B LoRA 0.70 80.79
LLaMA-3-8B HiRA 0.70 86.72
LLaMA-3-8B GateRA 0.71 87.53

数学推理(GSM8K)

方法 LLaMA-3-8B 准确率
LoRA 65.89
HiRA 70.81
GateRA 72.11

消融实验

变体 LLaMA-3-8B 平均准确率
HiRA (baseline) 86.72
静态门控 86.97
无熵正则化 87.08
GateRA 87.53

关键发现

  • 数据依赖门控比静态门控好 0.56%,熵正则化额外贡献 0.45%
  • FC + QKV 联合应用效果最佳(87.53),仅 FC 或仅 QKV 降至约 86.5
  • 门控自动学习到 prefill/decoding 的阶段差异——无需显式设计

亮点与洞察

  • 极简设计带来一致改进:仅一个线性层+sigmoid 就实现了 token 级适配调制,参数开销 0.01%,可即插即用到任何 PEFT 方法
  • 梯度调制的理论保证:证明门控值直接约束适配矩阵梯度的上界,提供了"选择性知识保留"的形式化基础

局限性 / 可改进方向

  • 仅在 HiRA 上验证,与其他 PEFT 方法(如 QLoRA、AdaLoRA)的兼容性未测试
  • 熵正则化的权重 \(\lambda\) 可能需要任务特定调优
  • 门控粒度为 token 级标量,更细粒度的通道级门控可能更有效

相关工作与启发

  • vs HiRA: HiRA 用乘法低秩更新,GateRA 在此基础上加 token 感知门控,一致提升 1.1%(LLaMA-2)和 0.81%(LLaMA-3)
  • vs MoRA: MoRA 关注秩的高效利用,GateRA 关注适配强度的 token 级动态分配,两个方向正交

评分

  • 新颖性: ⭐⭐⭐⭐ Token 感知门控+熵正则化的组合简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 常识推理/对话/数学三类任务,两个基座模型,详细消融
  • 写作质量: ⭐⭐⭐⭐ 理论分析清晰,可视化直观
  • 价值: ⭐⭐⭐⭐ 即插即用的 PEFT 改进,实用价值高