Do Vision Language Models Need to Process Image Tokens?¶

会议: CVPR 2026
arXiv: 2604.09425
代码: 有
领域: 多模态VLM
关键词: 视觉语言模型, 图像token, 表征分析, 计算效率, 模态冗余

一句话总结¶

本文系统揭示了VLM中图像token表征在浅层即趋于稳定且跨层可互换，而文本token持续动态重构——图像处理深度的必要性高度依赖输出任务类型。

领域现状：VLM通过将视觉编码器与LLM结合实现多模态推理，但处理密集图像token穿越深层Transformer带来巨大计算开销。近期研究表明视觉信号在多模态任务中可能被低效利用。

现有痛点：视觉token在VLM深层是否持续提供有意义的信息变换尚不清楚。之前的工作主要假设视觉冗余并设计剪枝机制，但缺乏对表征动态的系统性理解。

核心矛盾：VLM对图像和文本token施加相同深度的处理，但两种模态的表征演化模式可能根本不同。

本文目标：从表征角度系统分析图像token在VLM中的演化、可互换性、任务依赖性和可恢复性。

切入角度：使用矩阵熵、内在维度和轨迹曲率三个指标跨3B-72B模型追踪表征结构演化。

核心idea：图像表征在浅层快速收敛到有界复杂度区域，深层处理主要保持而非重构视觉信息。

围绕五个研究问题展开系统实验：(RQ1) 表征如何演化？(RQ2) 稳定化是否意味着功能可互换？(RQ3) 图像token的必要性是否依赖任务？(RQ4) 截断后能否通过微调恢复？(RQ5) 推理链能否补偿减少的视觉处理？

三指标表征分析框架:
- 功能：量化图像和文本token的层间表征动态
- 核心思路：矩阵熵量化谱集中度（低=压缩，高=分散）；内在维度估计局部流形的有效自由度；轨迹曲率捕捉层间方向重构程度 \(\bar{C}_l = \frac{1}{N}\sum_i \arccos(\frac{\langle v_l^{(i)}, v_{l-1}^{(i)}\rangle}{\|v_l^{(i)}\|\|v_{l-1}^{(i)}\|})\)
- 设计动机：单一指标可能有偏差，三个互补指标的一致性结论更可靠
层替换协议（Layer Substitution Protocol）:
- 功能：测试图像token在不同深度的功能可互换性
- 核心思路：构建混合状态 \(Z_{hybrid} = (Z_{l_a}^{img}, Z_{l_b}^{txt})\)，将浅层图像token与深层文本token组合后传播，评估输出语义相似度。图像token替换保持~1.0相似度，文本token替换随层差增大显著下降
- 设计动机：如果结构稳定化意味着功能可互换，则浅层图像token应能替代深层而不影响语义
视觉深度截断分析:
- 功能：量化不同任务对持续图像token处理的依赖程度
- 核心思路：在cut层 \(l_c\) 之后移除所有图像token的激活。单token预测（MCQ）对截断相对鲁棒，但多token生成（描述）对早期截断高度敏感。BLEU/ROUGE分数随视觉深度单调提升
- 设计动机：可互换性不等于可丢弃性，需要区分不同输出结构对视觉深度的需求

RQ4使用基于蒸馏的LoRA微调，以完整模型输出为目标：\(y_{target} = f_{base}(x)\)，优化截断模型 \(\tilde{f}_K\) 逼近基础模型行为。