跳转至

Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings

会议: ICLR 2026
arXiv: 2602.06218
代码: https://github.com/Parabrele/IsoEnergy
领域: 多模态VLM
关键词: 模态间隙, 稀疏自编码器, 跨模态冗余, 等能量假设, VLM可解释性

一句话总结

提出 Iso-Energy 假设(真正跨模态共享的概念在不同模态中应具有相同的平均激活能量),并设计 Aligned SAE 作为分析工具,揭示 VLM 嵌入空间中双模态原子承载跨模态对齐信号、单模态原子完全解释模态间隙的几何结构。

研究背景与动机

  1. 领域现状:CLIP/SigLIP 等视觉-语言模型通过对比学习将图像和文本映射到共享嵌入空间,实现了跨模态对齐。但其嵌入空间的内部几何结构仍不清楚。
  2. 现有痛点:已知存在"模态间隙"(modality gap)现象——图像和文本嵌入位于隐空间中不相交的锥体中。之前的工作尝试通过移除均值差异或投影某些坐标方向来消除间隙,但这些干预都会损害跨模态性能。用稀疏自编码器(SAE)提取概念字典时,发现概念往往按模态分离,难以找到真正的双模态概念。
  3. 核心矛盾:VLM 明明是为跨模态对齐而训练的,但提取出的概念字典却大量按模态分离——这是因为概念恢复本身是一个欠定问题(非线性ICA不可辨识),缺乏额外归纳偏置时标准 SAE 无法正确区分双模态和单模态原子。
  4. 本文要解决什么? (a) 如何从 VLM 嵌入中准确恢复双模态 vs 单模态概念? (b) 模态间隙的本质是什么? (c) 能否在不损害性能的情况下消除模态间隙?
  5. 切入角度:从数据生成过程出发——如果多模态数据由共享的潜在概念向量通过各模态生成器产生,那么真正共享的概念应该在两个模态中留下"冗余的统计痕迹",特别是相同的平均激活能量。
  6. 核心idea一句话:利用跨模态冗余作为归纳偏置,通过等能量约束引导 SAE 学到正确的双模态/单模态概念分解,从而揭示和操控 VLM 嵌入的几何结构。

方法详解

整体框架

定义多模态概念生成过程:潜在概念向量 \(\mathbf{c}\) 稀疏采样,通过模态特定生成器 \(\mathbf{g}^{(d)}\) 生成各模态观测。VLM 编码器 \(\mathbf{f}\) 是生成器的近似逆映射,SAE \(\phi\) 进一步将嵌入提升回概念空间。目标是让 \(\phi \circ \mathbf{f}\) 正确恢复底层概念,但标准 SAE 因可辨识性问题而无法做到。

关键设计

  1. Iso-Energy 假设(等能量假设):
  2. 做什么:为概念恢复提供可检验的归纳偏置
  3. 核心思路:如果概念 \(k\) 是跨模态共享的,则其在两个模态中的平均平方激活应相等:\(\mathbb{E}_{X \in \mathcal{X}^{(d)}}[\psi(X)_k^2] = \mathbb{E}_{X \in \mathcal{X}^{(d')}}[\psi(X)_k^2]\)
  4. 设计动机:真正共享的概念由相同的潜在代码生成,因此应在各模态中产生可比的激活强度。这为不可辨识的非线性 ICA 问题提供了额外约束

  5. Aligned SAE (SAE-A):

  6. 做什么:在标准 SAE 训练中加入等能量正则项
  7. 核心思路:\(\mathcal{L}_{\text{SAE-A}} = \mathcal{L}_{\text{SAE}} + \beta \cdot \mathcal{L}_{\text{align}}\),其中 \(\mathcal{L}_{\text{align}} = -\frac{1}{b}\text{Tr}(\mathbf{Z}^{(d)} \mathbf{Z}^{(d')^\top})\),鼓励配对样本的 \(\ell_2\) 归一化编码的余弦相似度。使用 Matching Pursuit 实现 \(\ell_0\) 稀疏,\(\beta \approx 10^{-4}\) 的小权重足够
  8. 设计动机:轻量正则,不破坏重建质量(\(R^2 \geq 0.99\)),但能显著改善双模态概念的恢复

  9. 合成数据验证:

  10. 做什么:在有 ground truth 的合成数据上验证方法
  11. 核心思路:生成带已知双模态/单模态原子的数据,参数 \(\tau_1\) 控制原子的跨模态对齐度,\(\tau_2\) 控制嵌入层面对齐。当 Iso-Energy 成立(\(\tau_1=1\))时,标准 SAE 失败(Wasserstein=0.396, mma=0.29),SAE-A 成功(0.184, 0.52);当不成立时两者相当
  12. 设计动机:确保正则化器不会"幻觉"出不存在的双模态原子

  13. 几何分解与干预:

  14. 做什么:将 VLM 嵌入空间分解为双模态子空间 \(\Gamma\) 和单模态子空间 \(\Omega_I \oplus \Omega_T\)
  15. 核心思路:通过 modality score \(\mu\) 将字典原子分为双模态和单模态两类。双模态原子跨越 \(\Gamma\)(承载跨模态对齐信号),单模态原子跨越 \(\Omega_{I/T}\)(承载模态特定信息,解释模态间隙)
  16. 设计动机:这种分解使得可以针对性地操控——移除单模态原子可消除模态间隙而不损害性能

损失函数 / 训练策略

基础 SAE 使用 Matching Pursuit 实现 \(\ell_0\) 稀疏约束,通过序贯残差更新选择激活的原子。对齐损失 \(\mathcal{L}_{\text{align}}\) 最大化配对样本编码的余弦相似度,权重 \(\beta \approx 10^{-4}\) 极小,对重建几乎无影响。

实验关键数据

主实验

在 6 个 VLM(CLIP, CLIP-L, OpenCLIP, OpenCLIP-L, SigLIP, SigLIP2)上训练 SAE 和 SAE-A:

模型 MSE (SAE/SAE-A) R² (SAE/SAE-A) 分类准确率 \(p_{\text{acc}}\) (SAE/SAE-A)
CLIP 0.141/0.163 0.859/0.837 0.847/0.915
SigLIP2 0.115/0.115 0.884/0.885 0.897/0.899
  • SAE-A 在重建质量几乎不变的情况下,显著提高了双模态原子的激活模式分类准确率

消融实验

实验 关键指标 说明
合成数据 (Iso-Energy成立) SAE: W=0.396, mma=0.29; SAE-A: W=0.184, mma=0.52 SAE-A 恢复双模态原子显著更好
合成数据 (Iso-Energy不成立) 两者: W≈0.19, mma≈0.82 正则化器不会强行创造双模态原子
移除单模态原子 模态间隙消失 + 跨模态性能不降 验证了单模态原子=模态间隙的解释
仅在双模态子空间做向量运算 检索性能提升 + 编辑更 in-distribution 双模态子空间是跨模态操作的正确空间

关键发现

  • 稀疏双模态原子承载了全部跨模态对齐信号——数量少但信息集中
  • 少数高能量单模态原子充当"模态偏置",完全解释了模态间隙
  • 移除单模态原子可以在不损害下游性能的情况下消除模态间隙(之前所有方法做不到)
  • 将向量运算限制在双模态子空间内可以产生 in-distribution 编辑,改善检索效果
  • 与 Papadimitriou et al. (2025) 的发现相反:跨模态信息由共享原子而非特异性原子承载

亮点与洞察

  • 等能量假设的简洁与深刻:一个如此简单的统计量(各模态的平均平方激活相等)就足以作为双模态概念的判别标准,且有坚实的生成模型支撑。这个思想可迁移到任何多视角/多模态的概念提取任务
  • "不伤害就是最好的验证"策略:在合成数据上证明当假设不成立时正则化器是"中性"的(不会fabricate双模态概念),这种验证方式非常巧妙,避免了人为引入偏差的质疑
  • 模态间隙的概念级解释:将之前纯几何的描述(锥体、椭球壳)提升到概念层面(单模态原子=模态偏置),使得间隙不再是需要"消除"的bug,而是模型正确保留模态特定信息的feature
  • Matching Pursuit SAE:使用 \(\ell_0\) 稀疏而非 ReLU/TopK,更符合稀疏编码的理论假设,可迁移到其他SAE应用场景

局限性 / 可改进方向

  • Iso-Energy 假设要求概念在两个模态中有完全相同的能量,但现实中某些概念可能天然在视觉中更丰富(如颜色、纹理),这种不对称性未被讨论
  • 实验仅在双编码器(dual-encoder)VLM 上验证,未扩展到单编码器或编码器-解码器架构(如 LLaVA、Flamingo)
  • SAE-A 需要配对的 image-text 数据进行训练,限制了其在未配对数据上的应用
  • 对齐正则化的权重 \(\beta\) 虽然很小,但仍需要调节,不是完全无超参数的
  • 双模态/单模态的二元划分可能过于粗糙,实际中可能存在"部分双模态"的概念

相关工作与启发

  • vs Liang et al. (2022) 模态间隙: 他们描述了间隙的几何现象(锥体结构),但尝试消除间隙会损害性能。本文解释了为什么——间隙来自单模态原子,承载必要的模态特定信息,但可以在概念层面精确移除
  • vs Schrodi et al. (2025): 他们尝试通过投影少数canonical方向来消除间隙,但"误伤"了双模态信息。本文的SAE-A能正确分离,避免误伤
  • vs Papadimitriou et al. (2025): 他们认为跨模态信息由特异性(idiosyncratic)概念承载,本文发现恰恰相反——由共享原子承载。差异来自标准SAE的可辨识性问题
  • vs 柏拉图表示假设 (Huh et al. 2024): 本文的等能量假设可以看作是这一假设的可操作化版本——如果不同模型/模态收敛到相同特征,那么这些特征的统计量应跨模态一致

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Iso-Energy假设简洁优雅,首次在概念层面完整解释模态间隙
  • 实验充分度: ⭐⭐⭐⭐ 合成+真实数据验证充分,但缺少非dual-encoder结构
  • 写作质量: ⭐⭐⭐⭐⭐ 理论动机清晰,实验逻辑严密,图表设计精美
  • 价值: ⭐⭐⭐⭐⭐ 对VLM可解释性有重要推动,Aligned SAE有广泛应用前景