Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models¶
会议: AAAI 2026
arXiv: 2601.08476
代码: 未公开
领域: 多模态VLM / OOD检测
关键词: OOD检测, VLM, 跨模态代理演化, zero-shot, test-time adaptation, CLIP, 负标签
一句话总结¶
提出 CoEvo,一个 training-free 和 annotation-free 的 test-time 框架,通过双向 sample-conditioned 的文本/视觉 proxy 协同演化机制动态更新正负代理缓存,在 ImageNet-1K 上比最强负标签基线 AUROC 提升 1.33%、FPR95 降低 45.98%(从 18.92% 降至 10.22%),实现 SOTA 的 zero-shot OOD 检测。
背景与动机¶
VLM(如 CLIP)在开放世界部署时需要可靠的 OOD 检测来拒绝未见过的类别。Zero-shot OOD 检测不需要标注负样本,当前主流的"负标签"方法从 WordNet 等词库中选取与 ID 类语义不相关的文本标签作为 OOD proxy,通过比较测试图像与正/负标签的相似度来判断 ID/OOD。
然而,静态负标签设计存在两个根本缺陷:
- 未建模的负空间(Unmodeled Negative Space):全局固定的负标签集只能稀疏采样 ID 类别之外的广阔语义空间,很多与当前测试样本相关的负语义未被覆盖
- 跨模态不对齐(Modality Misalignment):test-time 分布偏移下视觉特征发生漂移,但文本负标签保持不变,导致跨模态相似度几何结构扭曲,判决阈值不稳定
AdaNeg 部分解决了第一个问题(用视觉 proxy 适配),但文本负标签仍然是静态的——适配是单向的。
核心问题¶
如何在不训练、不标注的前提下,实现文本和视觉双模态 proxy 的双向、sample-conditioned 动态适配,以应对 test-time 分布偏移下的 zero-shot OOD 检测?
方法详解¶
整体框架¶
CoEvo 在 test-time 维护两个模态特定的 proxy 缓存(文本缓存 + 视觉缓存),每个缓存包含正/负队列。核心是 Proxy-Aligned Co-Evolution 机制:视觉线索引导文本负标签的动态挖掘,更新后的文本 proxy 反过来精化视觉决策边界,形成闭环。
关键设计¶
- 文本 Proxy 缓存:
- 正 proxy 队列 \(\mathbf{T}_p\):ID 类名的 CLIP 文本编码,固定不变以保持 ID 语义锚点
-
负 proxy 队列 \(\mathbf{T}_n\):初始化为从大规模词库(WordNet/CSP)中选取的 M 个负类编码,在推理过程中动态演化
-
视觉 Proxy 缓存:
- 正 proxy 队列 \(\mathbf{V}_p \in \mathbb{R}^{K \times L \times D}\):每个 ID 类存储 L 个视觉实例,初始化为对应文本编码,高置信 ID 样本逐步入队
-
负 proxy 队列 \(\mathbf{V}_n\):高置信 OOD 样本入队,优先队列策略淘汰低置信/过时样本
-
Proxy-Aligned Co-Evolution 机制(核心贡献):
- 文本 proxy 演化:通过置信度 margin 门控(基于自适应阈值 \(\delta\) 和余量 \(\gamma\)),对高置信样本:
- 预测为 OOD → 检索语义上接近测试样本的文本负标签(Near Negatives),收紧局部开集边界
- 预测为 ID → 检索语义上远离测试样本的文本负标签(Far Negatives),扩大负空间覆盖
- 去重约束避免重复入队
-
视觉 proxy 演化:文本 proxy 更新后扩展视觉负 proxy 队列以容纳新暴露的 OOD 语义;基于熵(entropy)的置信度度量决定是否替换现有 proxy,确保队列始终存储最高置信样本
-
OOD 分数演化:
- Pre-evolution 分数(用于 proxy 更新):\(\mathcal{S}^{\text{pre}} = \lambda \mathcal{S}_T^{\text{pre}} + (1-\lambda) \mathcal{S}_V^{\text{pre}}\),文本权重更高(\(\lambda=0.8\)),因为冷启动时视觉 proxy 稀疏不可靠
- Post-evolution 分数(用于最终判决):\(\mathcal{S}^{\text{post}} = (1-\lambda) \mathcal{S}_T^{\text{post}} + \lambda \mathcal{S}_V^{\text{post}}\),权重翻转——演化后视觉 proxy 因累积实例级信息而更具判别力
-
这种"权重翻转"策略是关键设计:冷启动信任语义先验,充分演化后信任视觉证据
-
自适应阈值:采用数据驱动的阈值估计(最小化 ID/OOD 分数的类内方差),比固定阈值更鲁棒。
训练策略¶
完全 Training-free 和 Annotation-free。不修改 CLIP 骨干参数,仅在 test-time 在线演化 proxy 缓存。
实验关键数据¶
ImageNet-1K 主实验(CLIP ViT-B/16)¶
| 方法 | iNaturalist FPR95↓ | SUN FPR95↓ | Places FPR95↓ | Textures FPR95↓ | 平均 FPR95↓ | 平均 AUROC↑ |
|---|---|---|---|---|---|---|
| NegLabel | 1.91 | 20.53 | 35.59 | 43.56 | 25.40 | 94.21 |
| CSP | 1.54 | 13.66 | 29.32 | 25.52 | 17.51 | 95.76 |
| AdaNeg | 0.59 | 9.50 | 34.34 | 31.27 | 18.92 | 96.66 |
| CoEvo-NegLabel | 0.53 | 4.42 | 23.51 | 12.42 | 10.22 | 97.95 |
| CoEvo-CSP | 0.46 | 4.68 | 25.83 | 12.78 | 10.94 | 97.85 |
- FPR95 从 18.92%(AdaNeg)降至 10.22%,相对降低 45.98%
- 在 Textures 数据集上改进最大(31.27% → 12.42%),该数据集分布偏移最严重
OpenOOD 基准(Near-OOD + Far-OOD)¶
| 方法 | Near-OOD FPR95↓ | Far-OOD FPR95↓ | ID ACC↑ |
|---|---|---|---|
| AdaNeg | 67.51 | 17.31 | 67.13 |
| CoEvo-NegLabel | 64.64 | 15.24 | 66.83 |
| CoEvo-CSP | 66.88 | 14.47 | 67.36 |
- Far-OOD 场景提升明显,Near-OOD 改善较温和
消融实验¶
| Proxy 演化配置 | 平均 FPR95↓ | 平均 AUROC↑ |
|---|---|---|
| 无演化(NegLabel) | 24.97 | 94.56 |
| 仅文本演化 | 21.77 | 95.38 |
| 仅视觉演化 | 17.41 | 96.99 |
| 双向协同演化 | 10.22 | 97.95 |
- 文本和视觉演化都有独立贡献,双向组合产生超加性效果
- 视觉演化的单独贡献(-7.56 FPR95)大于文本演化(-3.20 FPR95)
数据不平衡鲁棒性(FPR95↓,ImageNet vs SUN)¶
| ID:OOD 比例 | NegLabel | AdaNeg | CoEvo-NegLabel |
|---|---|---|---|
| 1:100 | 23.00 | 28.00 | 17.00 |
| 1:1 | 21.55 | 8.01 | 5.27 |
| 100:1 | 19.69 | 17.40 | 14.77 |
- 在所有比例下均保持最优,极端不平衡(100:1,仅 100 个 OOD)下仍有效
亮点¶
- 双向 co-evolution 是核心创新:文本引导视觉、视觉反馈文本的闭环设计,解决了现有方法单向适配的根本局限
- Pre/Post 权重翻转策略巧妙:冷启动信任文本先验、充分演化后信任视觉证据,自适应调节双模态贡献
- 完全 training/annotation-free:即插即用任何 CLIP 模型,无需额外训练或标注OOD数据
- FPR95 降低 45.98% 是非常显著的改进——对实际部署的安全性有直接影响
局限性 / 可改进方向¶
- Near-OOD 改善有限:在 SSB-hard 等 fine-grained OOD 场景下提升不如 Far-OOD 明显
- Test-time 计算开销:每个样本需要检索 Top-N 文本候选 + 更新双模态缓存,推理延迟高于静态方法
- 依赖初始负标签质量:如果 WordNet/CSP 初始负标签覆盖不足,演化起点较差
- 顺序敏感性:online 演化的结果可能受测试样本顺序影响(文中未充分讨论)
- 仅在 CLIP ViT-B/16 上验证:更大规模 VLM(如 ViT-L、SigLIP)的效果未知
与相关工作的对比¶
- vs NegLabel/CSP(静态负标签):CoEvo 通过动态演化 proxy 解决静态方法的稀疏性和不对齐问题,FPR95 降低约 60%
- vs AdaNeg(单向适配):AdaNeg 仅适配视觉 proxy 而文本保持不变;CoEvo 实现双向适配,额外收益显著(FPR95 从 18.92% 降至 10.22%)
- vs MCM(最大 softmax):MCM 不使用负标签,仅基于 ID 类相似度判断,性能远低于负标签方法
- vs 训练型方法(LoCoOp/LAPT):CoEvo 作为 training-free 方法超越了需要 prompt tuning 的训练型方法
启发与关联¶
- Co-evolution 的思路可推广到 VLM 的其他 test-time adaptation 场景(域适应、continual learning、开集识别)
- "冷启动信任先验、演化后信任数据"的权重翻转策略是一个通用的 online learning 设计模式
- Proxy 缓存 + 熵筛选的在线更新机制可借鉴到检索增强系统中
评分¶
- 新颖性: ⭐⭐⭐⭐ 双向 proxy co-evolution 机制新颖,权重翻转设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ ImageNet-1K + OpenOOD + 消融 + 超参敏感度 + 不平衡分析,非常完整
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,公式推导清晰,算法伪代码完整
- 价值: ⭐⭐⭐⭐ 对 VLM 安全部署有直接价值,training-free 特性利于实际应用