跳转至

HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

日期: 2026-03-17
arXiv: 2603.16653
代码: GitHub
领域: 多模态/VLM
关键词: CLIP适配, 参数高效微调, 异构适配器, 瓶颈结构, Few-Shot学习

一句话总结

提出 HeBA,一种异构瓶颈适配器框架,为 CLIP 的视觉和文本分支分别设计卷积和线性适配器(压缩而非扩展),配合 Kaiming 初始化替代零初始化,在 11 个 few-shot 基准上以 81.35% 调和平均达到新 SOTA。

研究背景与动机

  1. 领域现状: 将 CLIP 适配到下游任务的 PEFT 方法主要有两类:Prompt Learning(CoOp、MaPLe 等)和 Adapter Tuning(CLIP-Adapter、Tip-Adapter 等)。

  2. 现有痛点: 现有适配器存在架构同质性问题——用相同的 MLP 处理视觉和文本 token,忽略了视觉的 2D 空间局部性和文本的全局语义密度。最近的 LwEIB 引入了深度卷积但用了"逆瓶颈"(4×扩展),参数多、易过拟合,需要复杂的优化调度来稳定训练。

  3. 核心矛盾: 适配器的容量(参数量)和正则化之间的权衡——扩展设计提供更大容量但增加过拟合风险,需要外部正则来补偿。

  4. 切入角度: 与其用大容量适配器 + 外部正则,不如用压缩瓶颈让架构本身充当正则器——迫使模型学习紧凑的域偏移表示。

  5. 核心 idea: 三个协同创新——异构处理(视觉用卷积+文本用线性)、压缩瓶颈(D→D/4 而非 D→4D)、主动 Kaiming 初始化(替代零初始化避免梯度消失)。

方法详解

整体框架

在冻结 CLIP 的 ViT-B/16 backbone 上,对视觉和文本编码器分别插入轻量异构适配器,通过残差连接 \(\mathbf{x}_{l+1} = \text{LN}(\mathbf{x}_l + s \cdot \mathcal{F}_{\text{HeBA}}(\mathbf{x}_l))\) 融入原始特征。

关键设计

  1. 异构模态处理:

    • 视觉分支: 将 token reshape 为 2D 网格 → 1×1 Conv 压缩通道 (D→D/4) → 3×3 深度可分离卷积捕获空间局部性 → GELU → 1×1 Conv 还原通道
    • 文本分支: 线性投影压缩 (D→D/4) → GELU → 线性投影还原
    • 设计动机: 图像有空间局部性(纹理、形状),文本有全局语义——用同一种架构处理两者是不合理的
  2. 压缩瓶颈 (D→D/4):

    • 做什么: 用 4× 压缩替代传统的 4× 扩展
    • 设计动机: 压缩迫使模型学习低秩的域偏移表示,物理性地过滤掉任务无关噪声。这比添加外部正则(如 dropout、weight decay)更根本——架构即正则
    • 对比: LwEIB 用 4× 扩展 → 参数多 → 需要复杂优化调度稳定训练
  3. 主动 Kaiming 初始化:

    • 做什么: 用 He Normal 分布 \(\mathbf{W}_{up} \sim \mathcal{N}(0, 2/n_{in})\) 初始化上投影权重
    • 设计动机: 零初始化虽然保持恒等映射,但导致适配器子空间梯度消失——延迟了适配过程。因为主干已冻结,灾难性遗忘的风险不存在,所以可以安全地使用非零初始化
    • 配合动态 slow-fast 缩放和 Label Smoothing (ε=0.1) 稳定训练

训练细节

  • 所有实验在单张 NVIDIA Tesla P100 GPU 上完成(Kaggle 环境)
  • 16-shot,训练 30 epoch,SGD + cosine annealing
  • 推理时对 Novel 类降低适配器缩放(α_novel=0.010 < α_base=0.025)

实验关键数据

Base-to-Novel 泛化(11 数据集平均)

方法 Base Acc Novel Acc HM
HeBA 84.37 78.62 81.35
LwEIB 84.46 78.21 81.21
MMA 83.07 76.90 79.87
MaPLe 82.28 75.14 78.55
CoOp 82.69 63.22 71.66
CLIP zero-shot 69.34 74.22 71.70

HeBA 在 Novel Acc 上领先 LwEIB (+0.41pp),在 HM 上新 SOTA (+0.14pp)。

结构敏感数据集上的优势

数据集 HeBA Novel LwEIB Novel 差距
DTD (纹理) 70.20 67.83 +2.37
EuroSAT (卫星) 83.43 (HM 88.16) (HM 86.86) +1.30 HM

空间感知的深度卷积在纹理/卫星等需要局部结构理解的任务上优势最明显。

消融实验

配置 HM
完整 HeBA 81.35
用扩展瓶颈 (4×) 替代压缩 下降
零初始化替代 Kaiming 下降
同构(视觉也用线性) 下降
无 Label Smoothing 下降

关键发现

  • 压缩瓶颈 > 扩展瓶颈:参数更少反而更好——结构化正则比增加容量更有效
  • Kaiming 初始化安全且有效:在 backbone 冻结的前提下,非零初始化不会破坏预训练知识
  • 异构设计在结构敏感任务上收益最大(DTD +2.37pp)

亮点与洞察

  • "架构即正则"的设计哲学:不依赖 dropout、weight decay 等外部正则手段,而是通过瓶颈压缩让架构本身限制模型容量。这个思路在 PEFT 领域不常见但非常有效。
  • 挑战零初始化的共识:绝大多数 PEFT 方法使用零初始化来保护预训练知识,HeBA 证明在 backbone 冻结时这是不必要的——Kaiming 初始化可以加速收敛且无害。
  • 单卡 P100 就能跑 SOTA:整个实验在 Kaggle 的免费 GPU 上完成,实用性极强。

局限性 / 可改进方向

  • 提升幅度较小:相比 LwEIB 的提升只有 +0.14 HM,虽然一致但相对modest
  • 仅在 ViT-B/16 CLIP 上验证:更大的 backbone(ViT-L/14、SigLIP)上效果未知
  • 推理时需要区分 base/novel 的缩放系数:这在实际部署中是一个限制——需要知道测试样本来自哪个分布

相关工作与启发

  • vs LwEIB: 直接对标,将扩展瓶颈 (4×) 反转为压缩瓶颈 (1/4×)——参数更少、更稳定、效果略好
  • vs MaPLe: MaPLe 做多模态 prompt,HeBA 做多模态 adapter——两者可能互补
  • 启发:压缩 > 扩展的结论可能适用于其他 PEFT 场景(如 LoRA 的秩选择)

评分

  • 新颖性: ⭐⭐⭐ 各个组件(异构、瓶颈、Kaiming 初始化)单独看不新,但组合后的协同效果有说服力
  • 实验充分度: ⭐⭐⭐⭐ 11 数据集 + 跨数据集 + 域泛化 + 消融
  • 写作质量: ⭐⭐⭐⭐ 动机论述充分,理论分析清晰
  • 价值: ⭐⭐⭐⭐ 简单高效,单卡可复现,对 PEFT 社区有参考意义