Post-hoc Probabilistic Vision-Language Models¶

会议: ICLR 2026
arXiv: 2412.06014
代码: 有（Project page）
领域: Multimodal VLM / Uncertainty Quantification
关键词: 视觉语言模型, 不确定性量化, 贝叶斯推断, Laplace近似, 主动学习

一句话总结¶

提出一种免训练的后验（post-hoc）不确定性估计方法，对 CLIP/SigLIP 等 VLM 最后几层使用 Laplace 近似，解析推导余弦相似度的不确定性，在不确定性量化和主动学习中取得显著优于基线的效果。

研究背景与动机¶

领域现状¶

领域现状：视觉语言模型（VLMs），如 CLIP 和 SigLIP，已在分类、检索、生成等任务中取得了巨大成功。这些模型的核心操作是将图像和文本分别映射到共享的潜在空间，然后使用余弦相似度（cosine similarity）评估匹配程度。

然而，这种确定性映射存在一个根本性问题：无法捕获概念上的不确定性（uncertainty over concepts）。具体而言：

领域偏移（domain shift）：当 VLM 用于下游任务时，训练域与目标域之间的差异导致预测不可靠，但模型无法表达其"不确信"的程度

分布外样本（OOD）：对于未见过的图像或概念，VLM 仍然输出单一的确定性嵌入，无法区分"确信正确"和"猜测性预测"

安全关键应用：在医疗诊断、自动驾驶等场景中，不确定性估计对于可靠决策至关重要

现有的不确定性估计方法通常需要：

现有痛点¶

现有痛点：重新训练整个模型（如 Monte Carlo Dropout、集成学习）

核心矛盾¶

核心矛盾：修改模型架构（如概率嵌入方法）

解决思路¶

解决思路：大量额外的计算资源

这些方法在大规模 VLM 上不切实际——CLIP 等模型在数十亿图文对上训练，重新训练成本极高。因此，一种不需要额外训练的后验不确定性估计方法具有极大的实用价值。

方法详解¶

整体框架¶

BayesVLM（论文提出的方法名称）的核心思想是：

保持 VLM 的所有参数不变
仅对最后几层构建贝叶斯后验近似
通过 Laplace 近似获得参数的高斯后验分布
解析推导余弦相似度在后验分布下的不确定性

关键设计¶

Laplace 后验近似：
- 将 VLM 最后几层的权重视为随机变量
- 使用 Laplace 近似构建权重的高斯后验分布：\(p(\theta | D) \approx \mathcal{N}(\theta^*, \Sigma)\)
- 其中 \(\theta^*\) 是预训练权重（MAP 估计），\(\Sigma\) 通过 Fisher 信息矩阵的逆近似
- 设计动机：Laplace 近似在 MAP 估计点展开，天然利用了已训练好的模型参数，无需重新训练
余弦相似度的不确定性解析推导：
- 传统 VLM 中，余弦相似度 \(s = \frac{f_I \cdot f_T}{\|f_I\| \|f_T\|}\) 是确定性的
- 当嵌入成为随机变量后，余弦相似度也成为随机变量
- 论文解析推导了余弦相似度的分布特性（均值和方差），避免了 Monte Carlo 采样的计算开销
- 设计动机：解析解不仅计算高效，还避免了采样引入的近似误差
仅处理最后几层：
- 不对整个 VLM 做贝叶斯处理，仅处理最后几层
- 这大幅降低了计算成本——Fisher 信息矩阵的规模从整个模型缩小到最后几层的参数
- 实践中最后几层对下游任务的适应性影响最大
- 设计动机：平衡计算成本与不确定性估计的有效性，feature extractor 部分的不确定性在后验中近似为零
免训练特性：
- 方法仅需要一次简单的校准（calibration），不需要微调模型任何参数
- 校准过程计算 Fisher 信息矩阵（或其近似），可以在少量数据上完成
- 模型参数完全保持不变，不影响原有性能
- 设计动机：使方法可以即插即用地应用于任何预训练 VLM，最大化实用性

损失函数 / 训练策略¶

无需额外训练：方法完全是后验（post-hoc）的
校准过程：使用少量数据计算 Fisher 信息矩阵的对角近似或 Kronecker 分解近似
推理过程：前向传播得到嵌入 → 利用Laplace近似计算不确定性 → 输出均值预测和不确定性估计

实验关键数据¶

主实验¶

论文在两个主要应用场景中验证方法的有效性：

不确定性量化（Uncertainty Quantification）

设置	指标	BayesVLM	确定性基线	优势
ID 数据	校准误差 (ECE)	显著改善	过度自信	校准更好
OOD 检测	AUROC	提升明显	无不确定性	能识别 OOD
领域偏移	预测可靠性	更稳健	性能下降	提供可靠的不确定性信号

主动学习（Active Learning）

数据集	指标	BayesVLM	随机采样	其他基线
多个下游任务	样本效率	最高	基准线	中等
标注预算受限	准确率	最优	较差	次优

消融实验¶

配置	关键指标	说明
处理层数	不确定性质量	仅最后 1-2 层即可获得良好效果
Fisher 矩阵近似方式	校准质量	对角近似已足够，Kronecker 分解效果更好
不同 VLM 骨架	通用性	CLIP 和 SigLIP 上均有效

关键发现¶

校准良好：BayesVLM 提供的不确定性估计具有良好的校准性——模型预测"不确信"时确实更可能出错
可解释性：不确定性估计具有直觉上的可解释性——模棱两可或分布外的样本获得更高不确定性
主动学习高效：基于不确定性的样本选择显著优于随机采样，在标注预算有限时价值尤其突出
不影响原始性能：作为后验方法，不修改模型参数，不降低原有的分类/检索性能
计算高效：解析推导避免了 Monte Carlo 采样，推理开销极小

亮点与洞察¶

问题选择精准：VLM 的不确定性估计是一个被忽视但极其重要的问题，特别是在安全关键应用中
方法设计简洁：不需要重新训练、不需要修改架构、不需要大量额外计算，真正的"即插即用"
理论-实用平衡：Laplace 近似有坚实的理论基础，同时解析推导保证了计算效率
余弦相似度的概率化处理：将确定性的余弦相似度转化为具有不确定性的随机变量，是一个优雅的理论贡献
下游应用多样：同时展示了在不确定性量化和主动学习两个实际场景中的价值

局限与展望¶

近似质量：Laplace 近似假设后验为高斯分布，在高维空间中可能不够准确
仅处理最后几层：忽略了 VLM 更深层的不确定性传播，可能低估总体不确定性
Fisher 矩阵计算：对于非常大的模型，即使是对角近似也可能有一定计算开销
评估基准有限：不确定性估计的评估缺乏统一标准，不同数据集上的表现可能差异较大
面向分类/检索场景：未验证在生成式 VLM（如 LLaVA、GPT-4V）上的适用性
自回归生成：方法适用于 CLIP 类的双编码器架构，对于自回归 VLM 架构需要进一步扩展

评分¶

新颖性: ⭐⭐⭐⭐ — 后验 Laplace 近似不新，但在 VLM 余弦相似度上的解析推导是新的贡献
实验充分度: ⭐⭐⭐⭐ — 不确定性量化和主动学习双场景验证，多 VLM 骨架测试
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，方法描述简洁易懂
价值: ⭐⭐⭐⭐ — 解决了 VLM 部署中的实际需求，安全关键应用前景广阔