跳转至

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

会议: CVPR 2026
arXiv: 2603.11542
代码: github.com/Jahid12012021/ReHARK
领域: 模型压缩 / 高效适应
关键词: CLIP适应, one-shot学习, 核岭回归, 训练免微调, RBF核

一句话总结

提出ReHARK——一个训练免的CLIP one-shot适应框架,通过融合CLIP文本知识、GPT3语义描述和视觉原型构建混合先验,结合多尺度RBF核在RKHS中做全局近端正则化,在11个基准上以65.83%平均准确率刷新one-shot SOTA。

背景与动机

将CLIP等VLM适应到下游任务时,极少样本(one-shot)场景面临"稳定性-可塑性"困境。微调方法(CoOp等)计算昂贵且易灾难性遗忘;训练免方法如Tip-Adapter虽轻量,但理论上等价于局部Nadaraya-Watson估计器,存在边界偏差和缺乏全局结构正则化的问题。ProKeR引入了RKHS全局正则化来缓解,但在极端数据稀缺的one-shot场景下,单个视觉样本难以捕获领域细节,性能受限。

核心问题

如何在仅有每类一个样本的极端条件下,充分利用多模态先验知识(文本+视觉+LLM语义)并通过全局核方法实现稳定可靠的CLIP域适应?

方法详解

整体框架

四阶段流水线:(1)特征变换与校正 → (2)混合先验构建 → (3)支撑集增广(桥接) → (4)RKHS中多尺度RBF核岭回归。所有步骤无需反向传播训练,仅需超参搜索(Optuna 1000次trial)。

关键设计

  1. 混合语义-视觉先验: 融合三种知识源——(a) CLIP标准文本权重\(W_{clip}\),(b) GPT3生成的高密度语义描述经CLIP编码后的权重\(W_{gpt3}\),(c) 1-shot视觉类原型\(P_{vis}\)。先以权重\(\gamma\)混合文本先验,再以权重\(\omega\)融入视觉原型,得到稳定的全局锚点\(W_{prior}\)

  2. 支撑集桥接增广: 通过将视觉特征与对应类的精化文本先验混合,生成跨模态"桥接"样本\(x_{bridge} = \text{norm}(x_{vis} + \eta \cdot w_{label})\),平滑文本和视觉模态之间的适应流形,将支撑集从\(NK\)扩增到\(2NK\)

  3. 多尺度RBF核集成: 使用两个不同带宽\(\beta_1\)(局部)和\(\beta_2\)(全局)的高斯RBF核的凸组合:\(K(\mathbf{x}, \mathbf{x}') = \pi \exp(-\beta_1 \|\mathbf{x}-\mathbf{x}'\|^2) + (1-\pi) \exp(-\beta_2 \|\mathbf{x}-\mathbf{x}'\|^2)\)。封闭解\(\boldsymbol{\alpha} = (K + \lambda I)^{-1}(Y - \hat{Y}_{zs})\)

  4. 非线性幂变换: 对特征施加\(f(\mathbf{x}, p) = \text{sign}(\mathbf{x}) \cdot |\mathbf{x}|^p\)后L2归一化,缓解高维分布偏差和域位移。

损失函数 / 训练策略

无训练,推理时直接用闭式解求适应系数。超参通过Optuna搜索1000次trial优化(\(\beta_1, \beta_2, p, \gamma, \omega\)等)。推理公式:\(\Phi(x_q) = \sigma_{zs}(x_q W_{prior}^T) + K(x_q, S_{aug})\boldsymbol{\alpha}\)

实验关键数据

方法 ImageNet Caltech DTD EuroSAT Aircraft Pets Flowers Food101 Cars SUN397 UCF101 平均
Zero-Shot CLIP 60.35 85.68 42.91 36.27 17.01 77.37 66.02 85.72 55.75 58.82 61.78 58.88
Tip-Adapter 60.58 88.09 45.90 56.76 19.06 77.54 75.06 86.02 57.11 60.85 64.40 62.85
ProKeR 60.60 88.17 47.99 59.75 20.65 77.40 78.85 86.44 56.79 59.66 65.13 63.77
ReHARK 61.88 90.13 49.23 69.19 21.45 77.55 80.82 86.34 59.18 63.53 64.83 65.83

比ProKeR提升+2.06%,在EuroSAT上提升+9.44%最为显著。

消融实验要点

  • 去掉Power Transform掉点最多(65.75→65.32),说明非线性特征校正关键
  • 去掉Rectify(分布对齐)和Refine(视觉原型融入)各掉约0.3%
  • 纯视觉先验(ONLY_VISUAL)准确率暴跌至43.83%,说明one-shot下文本先验至关重要
  • RBF核显著优于Linear核(55.45%)和Laplacian核(60.84%)
  • 搜索试次从50→1000单调提升(64.87→65.83%)

亮点

  • 理论视角清晰:将Tip-Adapter解释为NW局部估计器,ReHARK为RKHS全局正则化,有清晰的理论动机
  • 训练免设计+封闭解+单GPU P100即可运行,极其轻量
  • GPT3语义描述与CLIP文本权重的融合巧妙地增加了one-shot下的"知识密度"
  • EuroSAT上+9.44%的巨大提升说明框架对结构敏感/分布偏移大的数据集特别有效

局限性 / 可改进方向

  • 1000次Optuna搜索引入计算开销,虽然推理免训练,但超参搜索本身不"免费"
  • GPT3通用描述在高度专业化领域可能不够判别性
  • 仅验证了one-shot场景,few-shot(2/4/8/16-shot)下的表现未报告
  • 仅使用ViT-B/16 backbone,未验证更大的backbone或其他VLM

与相关工作的对比

  • Tip-Adapter: 局部NW估计器,平均62.85% vs ReHARK 65.83%,差距来自全局正则化和混合先验
  • ProKeR: 同样用RKHS全局正则化,但缺乏GPT3先验和多尺度核,63.77% vs 65.83%,EuroSAT差距最大(59.75 vs 69.19)
  • GDA: 使用Mahalanobis距离的高斯判别分析,62.24%,属于训练免方法中较强的baseline

启发与关联

  • 混合先验的构建思路可用于其他VLM适应场景——不只使用一种prompt/描述,而是融合多源语义知识
  • 多尺度核集成的想法简单有效,可迁移到其他核方法中
  • 桥接增广的思路(视觉+文本混合特征)在跨模态对齐任务中有通用价值

评分

  • 新颖性: ⭐⭐⭐⭐ 在ProKeR基础上的系统性改进,混合先验+多尺度核+桥接增广的组合有新意
  • 实验充分度: ⭐⭐⭐⭐ 11个基准、多维度消融充分,但缺乏few-shot和多backbone对比
  • 写作质量: ⭐⭐⭐ 结构清晰但部分公式重复,被动语态过多影响可读性
  • 价值: ⭐⭐⭐⭐ 在one-shot VLM适应这个实用场景有明确价值,训练免设计适合实际部署