Whitened CLIP as a Likelihood Surrogate of Images and Captions¶

会议: ICML 2025
arXiv: 2505.06934
代码: 有（论文中提供链接）
领域: 多模态学习 / 表示分析
关键词: CLIP, 白化变换, 似然代理, 各向同性, OOD检测

一句话总结¶

提出 Whitened CLIP (W-CLIP)，通过对 CLIP 嵌入做可逆 PCA 白化变换使其近似 i.i.d. 标准正态分布，从而用欧氏范数的平方直接估计图像和文本的对数似然，在伪影检测、域偏移分析和全圆 SLERP 图像操控中展现了有效性。

研究背景与动机¶

图像似然估计的困难：计算图像的似然 \(P(X)\) 是计算机视觉的基础问题，但现有方法（如扩散模型）只能近似得分函数 \(\nabla_x \log P(X)\)，GAN/VAE/EBM 等生成模型也仅隐式估计分布，无法直接获得 \(P(X)\)。

CLIP 空间的结构性问题：CLIP 将图像和文本嵌入共享空间，广泛用于图文匹配。但其嵌入空间存在两个已知缺陷——Narrow Cone Effect（嵌入集中在狭窄角度范围）和 Modality Gap（图像与文本嵌入分布不相交），限制了其作为概率估计器的使用。

核心 idea：对 CLIP 嵌入应用白化变换（零均值 + 单位协方差），将原始椭球形空间转化为超球面。在标准正态假设下，对数似然可直接由白化空间中的欧氏范数平方估计：\(\ell(x) = -\frac{1}{2}(d\log(2\pi) + \|x\|^2)\)。该变换完全无需训练，仅依赖预计算的白化矩阵。这是首次为图像提供基于高层语义的直接概率计算方法。

方法详解¶

整体框架¶

W-CLIP 的 pipeline 极简：(1) 在代表性数据集（如 MS-COCO 验证集 5000 张图）上计算 CLIP 嵌入的均值 \(\mu\) 和协方差矩阵 \(\Sigma\)；(2) 通过 PCA 分解 \(\Sigma = V\Lambda V^\top\) 得到白化矩阵 \(W = \Lambda^{-1/2}V^\top\)；(3) 对任意新样本的 CLIP 嵌入 \(x\)，计算白化嵌入 \(y = W(x - \mu)\)；(4) 利用 \(\ell(x) = -\frac{1}{2}(d\log(2\pi) + \|y\|^2)\) 估计似然。图像和文本模态分别独立白化处理，白化矩阵预计算一次即可复用。使用 CLIP ViT-L/14 模型（\(d=768\)）。

关键设计¶

PCA 白化变换:
- 功能：将 CLIP 嵌入从各向异性椭球分布转化为各向同性超球分布
- 核心思路：给定协方差矩阵 \(\Sigma = V\Lambda V^\top\)，白化矩阵 \(W = \Lambda^{-1/2}V^\top\)，白化后 \(y = W\hat{x}\) 满足 \(\mu_Y = 0, \Sigma_Y = I\)。变换可逆，原始空间可通过 \(x = W^{-1}y + \mu\) 恢复。Diagonal Score（对角度量）验证白化后协方差近乎完美对角化，在正态假设下不相关等价于独立
- 设计动机：白化是唯一同时实现零均值、单位方差、去相关的线性变换；纯数据驱动无超参数，计算开销极低，可逆性保证 CLIP 原有功能不受影响
范数-似然映射与正态性验证:
- 功能：统计验证白化嵌入近似标准正态分布，建立范数与似然的精确对应
- 核心思路：使用 Anderson-Darling（侧重尾部偏差）和 D'Agostino-Pearson（结合偏度和峰度）两种检验。图像嵌入 >98% 特征通过正态检验，文本 >90%。范数服从 chi 分布 \(\chi_d\)，期望 \(\mathbb{E}[S] = \sqrt{2}\frac{\Gamma(\frac{d+1}{2})}{\Gamma(\frac{d}{2})} \approx \sqrt{d - 1/2}\)，\(d=768\) 时理论值 27.7，实测图像嵌入均值 27.43（偏差仅 0.98%）
- 设计动机：只有验证了正态假设的有效性，范数才能作为可靠的似然代理。经验与理论值的高度吻合确认了方法的统计基础
全圆球面线性插值 (Full-Circle SLERP):
- 功能：将标准 SLERP 从 \(t \in [0,1]\) 扩展到全 \(360°\)，实现图像间的插值与外推
- 核心思路：设插值角度 \(\omega\)，令 \(t = \omega/\theta\)，代入 SLERP 公式 \(\text{SLERP}(t; E_1, E_2) = \frac{\sin((1-t)\theta)}{\sin\theta}E_1 + \frac{\sin(t\theta)}{\sin\theta}E_2\)。在原始 CLIP 空间中 \(180°\) 处生成噪声，而在 W-CLIP 中所有角度均生成自然图像。\(180°\) 处的"对立嵌入"仅由源图决定，是源图的固定对称对应物
- 设计动机：CLIP 的 Narrow Cone 效应导致嵌入偏离超球面，SLERP 超出插值区间时失效。白化使嵌入均匀分布在超球面上，所有方向均在分布内

损失函数 / 训练策略¶

W-CLIP 完全免训练。白化矩阵 \(W\) 和均值 \(\mu\) 在代表性数据集上一次性预计算。跨数据集泛化验证表明 MS-COCO 和 Flickr8k 交换白化/测试角色后似然相关性仍达 0.69-0.88。

实验关键数据¶

主实验：正态分布检验¶

检验方法	模态	平均分数	通过比例	阈值
Anderson-Darling	图像	0.489	98.3%	< 0.752
Anderson-Darling	文本	0.593	90.1%	< 0.752
D'Agostino-Pearson	图像	0.362	99.3%	> 0.05
D'Agostino-Pearson	文本	0.257	99.2%	> 0.05

经验值与理论值对比（\(d=768\)）¶

模态	均值 (经验/理论)	标准差 (经验/理论)
图像	27.43 / 27.7 (偏差 0.98%)	3.94 / 3.96 (偏差 0.55%)
文本	28.49 / 27.7 (偏差 2.85%)	5.72 / 6.60 (偏差 13.24%)

Full-Circle SLERP 对立图像质量¶

方法	Total Variation	Entropy	饱和像素占比
MS-COCO 真实图像	222.3	7.3	4.2%
CLIP 对立图像	156.7	4.8	55.5%
W-CLIP 对立图像	215.9	7.2	6.4%

似然分离能力对比 (AUC)¶

模型	类型分离 (Caption vs 通用文本)	去名词分离
GPT-2 (LLM)	0.80	0.43
OPT (LLM)	0.80	0.58
NEO (LLM)	0.77	0.58
BLIP (VLM)	0.92	0.66
GIT (VLM)	0.97	0.69
W-CLIP (本文)	0.999	0.94

消融实验：跨数据集泛化¶

测试集	白化数据集	Avg. AD	似然相关性 (图像/文本)
COCO	COCO	0.489	基线
COCO	Flickr8k	0.466	0.69 / 0.74
Flickr8k	COCO	0.641	0.77 / 0.88
Flickr8k	Flickr8k	0.522	基线

关键发现¶

W-CLIP 范数能有效区分真实与含伪影 AI 生成图像（SynArtifact 数据集中所有生成图像似然均低于真实对应物）
ImageNet-C 噪声级别与 W-CLIP 范数呈单调正相关（噪声越强似然越低），ImageNet-R 各风格偏移量有序：涂鸦最接近真实、电子游戏渲染偏移最大
W-CLIP 对语法错误（去名词）极其敏感（AUC=0.94），远超所有 LLM（≤0.58）和 VLM（≤0.69）
文本复杂度与似然负相关：移除具体词（人名/地点）→似然升高，添加具体词→似然降低
生成模型（UnCLIP）存在系统性似然偏差，迭代生成中嵌入范数逐步增大导致退化，归一化到 \(\sqrt{d}\) 可缓解

亮点与洞察¶

零成本后处理：白化矩阵预计算一次，推理时仅需一次矩阵乘法，内存和计算需求极低
与语言模型的互补性：W-CLIP 对文本长度不敏感但对语义变化（语法、caption vs 通用文本）高度敏感，而语言模型恰好相反
均匀性提升：白化后余弦相似度集中在零附近（标准差极小），解决了原始 CLIP 中相似度集中在 0.5 附近的问题
可逆性保证兼容性：所有 CLIP 下游应用可与 W-CLIP 无缝集成

局限与展望¶

文本模态正态近似不如图像精确（标准差偏差 13.24%），文本侧似然估计精度受限
白化依赖代表性数据集计算协方差，对域偏移敏感
仅验证了 CLIP ViT-L/14 模型，其他架构（如 ViT-B/32、OpenCLIP）的适用性未系统评估
与语言模型似然的相关仅 0.33-0.48，说明 W-CLIP 捕捉的是不同维度的"似然"
生成图像检测仅做初步定性分析，缺乏大规模定量评估和专用检测器对比

评分¶

新颖性: ⭐⭐⭐⭐ 将白化这一经典操作与 CLIP 概率解释结合，视角独特，理论自洽
实验充分度: ⭐⭐⭐⭐ 涵盖正态性检验、跨域泛化消融、多应用场景、与多种 LLM/VLM 对比
写作质量: ⭐⭐⭐⭐ 数学推导严谨，图表丰富，结构清晰
价值: ⭐⭐⭐ 方法极简实用，但应用深度有限，更接近初步探索而非成熟工具