HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models¶
日期: 2026-03-17
arXiv: 2603.16653
代码: GitHub
领域: 多模态/VLM
关键词: CLIP适配, 参数高效微调, 异构适配器, 瓶颈结构, Few-Shot学习
一句话总结¶
提出 HeBA,一种异构瓶颈适配器框架,为 CLIP 的视觉和文本分支分别设计卷积和线性适配器(压缩而非扩展),配合 Kaiming 初始化替代零初始化,在 11 个 few-shot 基准上以 81.35% 调和平均达到新 SOTA。
研究背景与动机¶
-
领域现状: 将 CLIP 适配到下游任务的 PEFT 方法主要有两类:Prompt Learning(CoOp、MaPLe 等)和 Adapter Tuning(CLIP-Adapter、Tip-Adapter 等)。
-
现有痛点: 现有适配器存在架构同质性问题——用相同的 MLP 处理视觉和文本 token,忽略了视觉的 2D 空间局部性和文本的全局语义密度。最近的 LwEIB 引入了深度卷积但用了"逆瓶颈"(4×扩展),参数多、易过拟合,需要复杂的优化调度来稳定训练。
-
核心矛盾: 适配器的容量(参数量)和正则化之间的权衡——扩展设计提供更大容量但增加过拟合风险,需要外部正则来补偿。
-
切入角度: 与其用大容量适配器 + 外部正则,不如用压缩瓶颈让架构本身充当正则器——迫使模型学习紧凑的域偏移表示。
-
核心 idea: 三个协同创新——异构处理(视觉用卷积+文本用线性)、压缩瓶颈(D→D/4 而非 D→4D)、主动 Kaiming 初始化(替代零初始化避免梯度消失)。
方法详解¶
整体框架¶
在冻结 CLIP 的 ViT-B/16 backbone 上,对视觉和文本编码器分别插入轻量异构适配器,通过残差连接 \(\mathbf{x}_{l+1} = \text{LN}(\mathbf{x}_l + s \cdot \mathcal{F}_{\text{HeBA}}(\mathbf{x}_l))\) 融入原始特征。
关键设计¶
-
异构模态处理:
- 视觉分支: 将 token reshape 为 2D 网格 → 1×1 Conv 压缩通道 (D→D/4) → 3×3 深度可分离卷积捕获空间局部性 → GELU → 1×1 Conv 还原通道
- 文本分支: 线性投影压缩 (D→D/4) → GELU → 线性投影还原
- 设计动机: 图像有空间局部性(纹理、形状),文本有全局语义——用同一种架构处理两者是不合理的
-
压缩瓶颈 (D→D/4):
- 做什么: 用 4× 压缩替代传统的 4× 扩展
- 设计动机: 压缩迫使模型学习低秩的域偏移表示,物理性地过滤掉任务无关噪声。这比添加外部正则(如 dropout、weight decay)更根本——架构即正则
- 对比: LwEIB 用 4× 扩展 → 参数多 → 需要复杂优化调度稳定训练
-
主动 Kaiming 初始化:
- 做什么: 用 He Normal 分布 \(\mathbf{W}_{up} \sim \mathcal{N}(0, 2/n_{in})\) 初始化上投影权重
- 设计动机: 零初始化虽然保持恒等映射,但导致适配器子空间梯度消失——延迟了适配过程。因为主干已冻结,灾难性遗忘的风险不存在,所以可以安全地使用非零初始化
- 配合动态 slow-fast 缩放和 Label Smoothing (ε=0.1) 稳定训练
训练细节¶
- 所有实验在单张 NVIDIA Tesla P100 GPU 上完成(Kaggle 环境)
- 16-shot,训练 30 epoch,SGD + cosine annealing
- 推理时对 Novel 类降低适配器缩放(α_novel=0.010 < α_base=0.025)
实验关键数据¶
Base-to-Novel 泛化(11 数据集平均)¶
| 方法 | Base Acc | Novel Acc | HM |
|---|---|---|---|
| HeBA | 84.37 | 78.62 | 81.35 |
| LwEIB | 84.46 | 78.21 | 81.21 |
| MMA | 83.07 | 76.90 | 79.87 |
| MaPLe | 82.28 | 75.14 | 78.55 |
| CoOp | 82.69 | 63.22 | 71.66 |
| CLIP zero-shot | 69.34 | 74.22 | 71.70 |
HeBA 在 Novel Acc 上领先 LwEIB (+0.41pp),在 HM 上新 SOTA (+0.14pp)。
结构敏感数据集上的优势¶
| 数据集 | HeBA Novel | LwEIB Novel | 差距 |
|---|---|---|---|
| DTD (纹理) | 70.20 | 67.83 | +2.37 |
| EuroSAT (卫星) | 83.43 (HM 88.16) | (HM 86.86) | +1.30 HM |
空间感知的深度卷积在纹理/卫星等需要局部结构理解的任务上优势最明显。
消融实验¶
| 配置 | HM |
|---|---|
| 完整 HeBA | 81.35 |
| 用扩展瓶颈 (4×) 替代压缩 | 下降 |
| 零初始化替代 Kaiming | 下降 |
| 同构(视觉也用线性) | 下降 |
| 无 Label Smoothing | 下降 |
关键发现¶
- 压缩瓶颈 > 扩展瓶颈:参数更少反而更好——结构化正则比增加容量更有效
- Kaiming 初始化安全且有效:在 backbone 冻结的前提下,非零初始化不会破坏预训练知识
- 异构设计在结构敏感任务上收益最大(DTD +2.37pp)
亮点与洞察¶
- "架构即正则"的设计哲学:不依赖 dropout、weight decay 等外部正则手段,而是通过瓶颈压缩让架构本身限制模型容量。这个思路在 PEFT 领域不常见但非常有效。
- 挑战零初始化的共识:绝大多数 PEFT 方法使用零初始化来保护预训练知识,HeBA 证明在 backbone 冻结时这是不必要的——Kaiming 初始化可以加速收敛且无害。
- 单卡 P100 就能跑 SOTA:整个实验在 Kaggle 的免费 GPU 上完成,实用性极强。
局限性 / 可改进方向¶
- 提升幅度较小:相比 LwEIB 的提升只有 +0.14 HM,虽然一致但相对modest
- 仅在 ViT-B/16 CLIP 上验证:更大的 backbone(ViT-L/14、SigLIP)上效果未知
- 推理时需要区分 base/novel 的缩放系数:这在实际部署中是一个限制——需要知道测试样本来自哪个分布
相关工作与启发¶
- vs LwEIB: 直接对标,将扩展瓶颈 (4×) 反转为压缩瓶颈 (1/4×)——参数更少、更稳定、效果略好
- vs MaPLe: MaPLe 做多模态 prompt,HeBA 做多模态 adapter——两者可能互补
- 启发:压缩 > 扩展的结论可能适用于其他 PEFT 场景(如 LoRA 的秩选择)
评分¶
- 新颖性: ⭐⭐⭐ 各个组件(异构、瓶颈、Kaiming 初始化)单独看不新,但组合后的协同效果有说服力
- 实验充分度: ⭐⭐⭐⭐ 11 数据集 + 跨数据集 + 域泛化 + 消融
- 写作质量: ⭐⭐⭐⭐ 动机论述充分,理论分析清晰
- 价值: ⭐⭐⭐⭐ 简单高效,单卡可复现,对 PEFT 社区有参考意义