跳转至

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

会议: NeurIPS 2025
arXiv: 2510.21323
代码: https://github.com/ssfgunner/VL-SAE
领域: 多模态VLM / 可解释性 / 表示对齐
关键词: Sparse Autoencoder, 视觉-语言对齐, 统一概念集, 可解释性, 幻觉消除

一句话总结

提出VL-SAE,一种带有距离编码器和模态特定解码器的稀疏自编码器,将视觉和语言表示的语义映射到统一概念集,从而解释和增强VLM的视觉-语言对齐机制,在零样本分类平均提升0.6-0.9%,在POPE幻觉消除上超越专用方法VCD。

背景与动机

VLM(如CLIP、LLaVA)的核心能力来自视觉和语言表示的对齐,但这种对齐机制的可解释性一直缺乏研究。现有的表示解释方法要么只关注视觉侧(如SpLiCE分解CLIP视觉表示为文本),要么只关注语言侧(如Parekh等人分解token表示为概念),无法将两个模态的语义映射到同一个概念空间进行对比分析。

一个直觉的方案是对两个模态分别训练SAE,但由于SAE的概念集是自监督学习得到的、不可控的,两个SAE的同位置神经元会关联到不同概念(即"概念不匹配"问题)。即使使用一个共享SAE,由于多模态表示的分布差异,语义相似的视觉和语言表示仍然无法保证一致的激活模式。

核心问题

如何将视觉和语言两个模态的表示语义映射到统一的概念集中? 这个问题的关键挑战有两个:(1) 不同VLM采用不同的对齐策略(CLIP用对比损失做显式对齐、LLaVA用QA任务做隐式对齐),如何统一度量跨模态语义相似性;(2) 多模态表示的分布不同(视觉和文本表示在特征空间中占据不同区域),如何在保持重建质量的同时确保语义相似的跨模态表示获得一致的稀疏激活。

方法详解

整体框架

输入一对图-文样本,经VLM提取视觉表示 \(\mathbf{x}_v\) 和语言表示 \(\mathbf{x}_l\)。对LVLM(如LLaVA),先通过辅助自编码器将隐式对齐转为显式对齐(中间表示 \(\mathbf{x}_v^e, \mathbf{x}_l^e\) 通过InfoNCE对齐余弦相似度)。然后VL-SAE用共享的距离编码器 \(E_s\) 将两个模态的表示编码为稀疏激活 \(\mathbf{h}_v, \mathbf{h}_l\),再用两个模态特定解码器 \(D_v^s, D_l^s\) 分别重建原始表示。

关键设计

  1. 显式表示对齐(辅助自编码器): 对CVLM(如CLIP),视觉-语言表示天然通过余弦相似度对齐,直接使用原始表示。对LVLM(如LLaVA),对齐是通过QA任务隐式实现的,余弦相似度无法直接反映语义相似度。因此训练一个辅助自编码器,用InfoNCE损失(温度0.07)将中间表示对齐为余弦相似度形式,同时用重建损失保持信息完整性。

  2. 距离编码器: 关键创新。传统SAE用线性变换+ReLU作编码器(\(\mathbf{h} = \sigma(W\mathbf{x} + b)\)),激活值依赖于内积,无法保证语义相似的跨模态表示获得相近激活。本文提出基于归一化欧氏距离的编码器: $\(E_s(\mathbf{x}^e)[i] = 2 - \left\|\frac{\mathbf{x}^e}{\|\mathbf{x}^e\|_2} - \frac{\mathbf{w}_i}{\|\mathbf{w}_i\|_2}\right\|_2 = 2 - \sqrt{2 - 2\cos(\mathbf{x}^e, \mathbf{w}_i)}\)$ 这个距离满足三角不等式\(|g(\mathbf{x}_v^e, \mathbf{w}_i) - g(\mathbf{x}_l^e, \mathbf{w}_i)| \leq g(\mathbf{x}_v^e, \mathbf{x}_l^e)\),保证了当视觉-语言表示余弦相似度高时,它们对同一神经元的激活差异上界小。用Top-K稀疏化保留k=256个最大激活。

  3. 模态特定解码器: 如果用单一共享解码器,为了同时重建视觉和语言表示(分布不同),编码器不得不在激活中嵌入模态判别信息,导致语义相似的跨模态表示反而激活不一致。采用两个独立线性解码器 \(D_v^s, D_l^s\) 各自存储模态分布信息,让编码器的激活只编码语义信息。

损失函数 / 训练策略

  • 辅助自编码器(仅LVLM需要):\(\mathcal{L} = \text{InfoNCE}(\mathbf{x}_v^e, \mathbf{x}_l^e, \mathbf{x}_v^{e-}, \mathbf{x}_l^{e-}) + \|\hat{\mathbf{x}}_v - \mathbf{x}_v\|_2^2 + \|\hat{\mathbf{x}}_l - \mathbf{x}_l\|_2^2\),训练50 epoch,batch=2048
  • VL-SAE\(\mathcal{L} = \|\hat{\mathbf{x}}_v^e - \mathbf{x}_v^e\|_2^2 + \|\hat{\mathbf{x}}_l^e - \mathbf{x}_l^e\|_2^2\),训练10 epoch,batch=512
  • 训练数据:CC3M(300万图文对),4:1划分训练/测试集
  • 隐藏层维度为表示维度的8倍(如LLaVA的4096d→32768个隐藏神经元)
  • 均在单卡RTX 4090上训练,训练成本极低(VL-SAE for ViT-B/16仅0.03G FLOPs,132秒)

实验关键数据

零样本图像分类(OpenCLIP + VL-SAE)

模型 平均准确率 平均准确率+VL-SAE 提升
ViT-B/32 68.7% 69.5% +0.8
ViT-B/16 69.8% 70.4% +0.6
ViT-L/14 72.2% 72.9% +0.7
ViT-H/14 76.9% 77.8% +0.9

在14个分类数据集上持续提升,原理是结合原始余弦相似度和概念层激活余弦相似度做预测:\(y = \cos(\mathbf{x}_v, \mathbf{x}_l) + \alpha_c \cos(\mathbf{h}_v, \mathbf{h}_l)\)

POPE幻觉消除(LLaVA 1.5)

设置 方法 F1
Random Regular 80.87
Random VCD 84.04
Random VL-SAE 85.50
Popular Regular 79.27
Popular VCD 82.31
Popular VL-SAE 84.37
Adversarial Regular 77.16
Adversarial VCD 80.13
Adversarial VL-SAE 82.29

CHAIR幻觉消除(开放式描述生成)

模型 方法 CHAIR_S↓ CHAIR_I↓ Recall↑
LLaVA1.5 Regular 53.4 17.6 72.3
LLaVA1.5 VCD 55.0 16.3 76.0
LLaVA1.5 VL-SAE 47.8 13.3 76.3
Qwen-VL Regular 44.6 16.1 60.7
Qwen-VL VL-SAE 39.6 10.7 63.3

消融实验要点

  • 距离编码器是核心贡献:Standard SAE → +Distance-based Encoder,Intra-Sim从0.1890→0.2016(OpenCLIP),0.2086→0.2216(LLaVA)
  • 模态特定解码器进一步提升:+Modality-specific Decoder使Intra-Sim达0.2134/0.2257,Inter-Sim降至0.1149/0.1828
  • 辅助自编码器对LVLM必不可少:去掉后(直接用原始表示训练VL-SAE)Intra-Sim从0.2257降至0.2084,Inter-Sim从0.1828升至0.2034(概念质量严重下降)
  • Top-K稀疏化优于L1正则:Intra-Sim 0.2442 vs 0.2142,Inter-Sim 0.1373 vs 0.1809
  • 数据量越大概念质量越高:20%→100% CC3M,Intra-Sim从0.2029→0.2299
  • VL-SAE学到更多有效概念:死神经元仅15个(vs SAE-D 54个、SAE-S 46个)

亮点

  • 距离编码器的设计非常巧妙:利用归一化欧氏距离与余弦相似度的关系,天然满足三角不等式,从理论上保证了语义相似的跨模态表示获得相近激活。简洁优雅且有数学动机。
  • 模态特定解码器的洞察深刻:共享解码器会迫使编码器在激活中混入模态判别信息,这个观察解释了为什么简单共享SAE会失败。
  • 训练成本极低:VL-SAE本质上只是两个线性层的参数量,单卡4090几分钟即可训练。作为推理时的即插即用模块,对吞吐量几乎无影响(935→935 samples/s)。
  • 解释→增强的闭环:不只是解释模型,还能利用解释结果(概念级对齐)反过来提升模型性能,在分类和幻觉消除上都有实际效果。
  • 人类评估给VL-SAE的概念质量打了压倒性高分(65.9% vs SAE-S 33.5% vs SAE-D 0.6%)。

局限性 / 可改进方向

  • 概念评估指标的局限:CLIP相似度的数值差异可能无法完全捕捉概念质量的差异,语义相似和不相似的图-文对CLIP分数差距有时很小。需要更全面的评估框架。
  • 死神经元问题未解决:虽然VL-SAE比baseline有更少死神经元,但仍然存在,且高频激活神经元需要重加权处理。
  • 缺乏概念间关系建模:每个神经元独立地关联一个概念,没有建模概念之间的层级关系或组合关系。
  • 增强策略较简单:零样本分类只是线性组合原始预测和概念预测;幻觉消除通过对比解码注入视觉概念激活。更精细的概念级干预策略有待探索。
  • 超参数 \(\alpha_c\) 需要针对每个任务调优(虽然成本低),task-agnostic设置虽然也能提升但不如task-specific最优。

与相关工作的对比

  • SpLiCE (NeurIPS 2024):将CLIP视觉表示分解为稀疏的文本概念组合,但只处理视觉侧,无法做跨模态概念对比。VL-SAE统一处理两个模态,概念集对视觉和语言表示是共享的。
  • SAE-V (2025):对LVLM的多模态token表示训练SAE,但目的是高效数据采样而非解释对齐机制。VL-SAE专注于对齐的解释和增强。
  • Parekh et al. (NeurIPS 2024):概念解释框架,分解LVLM的token表示为视觉-语言概念,但没有统一概念集,无法直接比较两个模态激活的概念差异来理解对齐/不对齐。
  • VCD (CVPR 2024):通过对比解码消除幻觉的专用方法,VL-SAE作为通用解释工具反而在幻觉消除上超越VCD,体现了"理解模型→改善模型"的路径价值。

启发与关联

  • 概念瓶颈视频世界模型 idea有关联:VL-SAE展示了自监督学习概念集的可行性,可以考虑将类似的SAE架构应用于视频世界模型中提取时序概念。
  • 距离编码器的三角不等式trick可迁移到其他需要跨模态一致表示的场景(如音频-视觉、触觉-视觉)。
  • "通过概念级对齐增强推理"的思路可能对多模态RAG、VLM的few-shot能力提升也有价值。

评分

  • 新颖性: ⭐⭐⭐⭐ 距离编码器+模态特定解码器的设计有清晰的数学动机,统一概念集的思路新颖但整体框架不算革命性
  • 实验充分度: ⭐⭐⭐⭐ 覆盖4种CVLM和2种LVLM,14个分类数据集+POPE+CHAIR,消融详尽,人类评估加分
  • 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,方法推导严谨,图示直观,行文逻辑流畅
  • 价值: ⭐⭐⭐⭐ 打通了对齐解释→对齐增强的闭环,训练成本低、即插即用,实用价值高