Growing a Twig to Accelerate Large Vision-Language Models¶

会议: ICCV 2025
arXiv: 2503.14075
代码: github.com/MILVLG/twigvlm
领域: 多模态VLM
关键词: VLM加速, 视觉token剪枝, 自推测解码, 轻量级模块, 推理效率

一句话总结¶

提出 TwigVLM，通过在 VLM 早期层上"生长"一个轻量级 twig 模块，同时实现 twig 引导的视觉 token 剪枝（TTP，prefilling 加速）和自推测解码（SSD，decoding 加速），在 LLaVA-1.5-7B 上剪枝 88.9% 视觉 token 后保留 96% 精度，长回答生成速度提升 154%，在精度和速度上均大幅超越现有方法。

研究背景与动机¶

问题定义¶

大型视觉语言模型（VLM）在开放世界多模态理解中表现优异，但高计算开销严重阻碍其实际部署。VLM 的推理过程分为 prefilling（处理输入 token）和 decoding（逐个生成回答 token）两个阶段，需要同时加速两个阶段以实现实际可用的推理效率。

已有方法的不足¶

早期层注意力信号质量差：FastV 等方法利用 VLM 第 2 层的注意力图指导视觉 token 剪枝，但实验发现早期层的注意力对任务不敏感——不同 prompt 选出几乎相同的 token，导致剪枝后精度显著下降

仅加速 prefilling 阶段：现有 token 剪枝方法（FastV、SparseVLM、VisionZip 等）主要关注 prefilling 加速，而 decoding 阶段是推理过程中耗时最长的部分。当生成 ≥32 个 token 时，decoding 时间已远超 prefilling 时间

KV-cache 限制了剪枝对 decoding 的加速：由于 KV-cache 机制，视觉 token 剪枝对 self-attention 的 decoding 加速效果有限，且完全不加速占主要计算量的 FFN 层

核心动机¶

作者通过两个精心设计的先导实验揭示了关键洞察：

先导实验 1（注意力质量）：用不同深度 \(D\) 层的注意力图指导第 \(K=2\) 层的 token 剪枝，发现深层注意力（\(D=18\)）比浅层（\(D=2\)）的 RelAcc 高出约 14 个百分点。这是因为深层更靠近预测头，其注意力图能更准确理解多模态 token 之间的关系。

先导实验 2（时间开销分析）：当生成长度 \(S \geq 32\) 时，decoding 时间远超 prefilling 时间。FastV 虽然有效减少 prefilling 时间，但在 decoding 阶段仅获得极有限的加速（RelSpd 仅 104.3%）。

关键问题：能否在一个统一框架中同时解决注意力质量差和 decoding 加速不足这两个问题？

方法详解¶

整体框架¶

TwigVLM 的核心思想简洁优雅：在预训练 VLM 的早期层（第 \(K\) 层）上附加一个轻量级 twig 模块（\(T\) 层 transformer），形成一个浅层网络 \(\mathcal{M}_s\)。这个 twig 模块在训练后同时服务于两个目的： 1. Prefilling 阶段：用 twig 层的深层注意力（而非 VLM 早期层的浅层注意力）引导视觉 token 剪枝（TTP） 2. Decoding 阶段：浅层网络作为 draft 模型，深层 VLM 作为 target 模型，执行自推测解码（SSD）

关键设计¶

1. Twig 模块的架构与训练¶

功能：在 VLM 的第 \(K\) 层后附加 \(T\) 层 transformer 块，构建一个浅层子网络
核心思路：
- 深层 VLM 记为 \(\mathcal{M}_b = \{\mathcal{T}_l\}_{l=1}^L\)，twig 模块为 \(\{\mathcal{G}_t\}_{t=1}^T\)
- 浅层网络 \(\mathcal{M}_s = \{\mathcal{T}_k\}_{k=1}^K \cup \{\mathcal{G}_t\}_{t=1}^T\)，其中 \(K+T \ll L\)
- 初始化策略：twig 的 \(T\) 层从 VLM 的第 \(K+1\) 到 \(K+T\) 层复制权重（最优选择，因为输入分布最匹配）
- 训练时冻结 VLM 的全部参数，仅训练 twig 模块（\(T\) 层 + 预测头），使用与 VLM 相同的训练数据和标准自回归损失
- 训练开销仅约为 VLM 训练的 10%
设计动机：从 VLM 相邻层初始化确保 twig 层的输入-输出分布与 VLM 对齐，使得 twig 能以极小的训练代价获得接近深层网络的语义理解能力

2. Twig 引导的 Token 剪枝 (TTP)¶

功能：利用 twig 最后一层的注意力图指导第 \(K\) 层的视觉 token 剪枝
核心思路：

\[\hat{\mathbf{X}}_{\mathcal{M}_b}^{(K)} = \mathcal{P}(\mathbf{X}_{\mathcal{M}_b}^{(K)}, \mathbf{A}_{\mathcal{M}_s}^{(K+T)}, R)\]

其中 \(\mathcal{P}\) 为 FastV 风格的 TopR 选择函数，但注意力来源从第 \(K\) 层替换为 twig 的第 \(K+T\) 层。

额外引入 FinalWipe 策略：在 VLM 的第 \(K_f\) 层（如 24 层）之后移除所有视觉 token。此时平均保留 token 数重新定义为：

\[\bar{R} = [M \times K + R \times (K_f - K)] / L\]

这允许在相同 \(\bar{R}\) 下使用更大的 \(R\)，从而保留更多中间层视觉 token 以提升精度。

设计动机：先导实验 1 证明深层注意力比浅层注意力对 token 选择更有效；twig 层虽然与 VLM 第 \(K+T\) 层同深度，但因为直接连接预测头，其注意力图质量更高（96.0% vs. 86.2% RelAcc）

3. 自推测解码 (SSD)¶

功能：利用浅层网络快速生成 draft token，再由深层网络并行验证，加速 decoding
核心思路：
- 浅层 \(\mathcal{M}_s\)（draft 模型）自回归生成多个 draft token
- 深层 \(\mathcal{M}_b\)（target 模型）在单次前向传播中并行验证这些 token
- 被接受的 token 直接作为最终输出，被拒绝的从该位置重新采样
- 关键优势：draft 和 target 共享前 \(K\) 层的计算和 KV-cache，进一步提升效率
- SSD 产生与 target 模型完全相同的输出——精度不受影响
设计动机：先导实验 2 证明 decoding 是长回答场景的主要瓶颈；TwigVLM 天然包含深浅两个子网络，无需额外模型即可实现推测解码

损失函数 / 训练策略¶

损失函数：标准自回归语言建模损失
训练策略：仅训练 twig 块，冻结 VLM 所有参数
默认超参数：\(T=3\), \(K=2\), \(K_f=24\)
训练数据：与 base VLM 使用相同的多模态指令微调数据
硬件：8×A100 GPU

实验关键数据¶

主实验¶

LLaVA-1.5-7B 上剪枝 88.9% 视觉 token（保留平均 64 个 token）：

方法	GQA	MMB	MME	VQA-T	SQA-I	VQA-V2	RelAcc
LLaVA-1.5-7B (上界)	61.9	64.7	1862	58.2	69.5	78.5	100%
FastV	44.1	45.9	1218	50.7	70.0	52.0	77.0%
VisionZip‡	57.0	61.5	1756	56.0	68.8	74.2	95.2%
TwigVLM	58.8	60.4	1760	55.8	70.0	75.6	96.0%

生成速度对比（MM-Vet 长回答，\(\bar{S}\) ≈ 100 tokens）：

方法	RelSpd
FastV (\(\bar{R}\)=64)	~104%
VisionZip (\(\bar{R}\)=64)	~106%
TwigVLM (\(\bar{R}\)=64)	~154%

Video-LLaVA 视频理解（保留 135 个 token）：

方法	TGIF	MSVD	MSRVTT	ActivityNet	RelAcc
FastV	23.1	38.0	19.3	30.6	52.1%
VisionZip	42.4	63.5	52.1	43.0	93.2%
TwigVLM	44.7	68.3	54.6	41.5	96.3%

消融实验¶

配置	RelAcc	RelSpd	说明
注意力来自 VLM 第 K 层	82.3%	-	浅层注意力信号差
注意力来自 VLM 第 K+T 层	86.2%	-	同深度但距离预测头远
注意力来自 twig 最后层	96.0%	-	靠近预测头，质量最高
仅 FastV token 剪枝	-	104.3%	仅加速 prefilling
仅 SSD	-	146.7%	仅加速 decoding
TTP + SSD	-	153.6%	两者互补，加速最大
随机初始化 twig	87.2%	120.4%	缺乏 VLM 知识
从 VLM 最后 T 层初始化	90.4%	131.4%	分布不匹配
从 VLM K:K+T 层初始化	96.0%	153.6%	最优，分布最匹配
T=1	93.9%	154.1%	精度不足
T=3	96.0%	153.6%	精度-速度最优平衡
T=4	95.8%	145.4%	速度下降

关键发现¶

注意力深度决定剪枝质量：twig 层注意力比 VLM 同深度层高 9.8% RelAcc，证实"距离预测头越近的注意力越有效"
TTP 和 SSD 完美互补：TTP 加速 prefilling，SSD 加速 decoding，两者组合实现 153.6% 的整体加速
初始化策略至关重要：从 VLM 相邻层初始化比随机初始化高 8.8% RelAcc 和 33.2% RelSpd
FinalWipe 提升精度：在后期层移除视觉 token 不降低精度（因视觉 token 在深层贡献已减弱），反而允许中间层保留更多 token
视频任务泛化性强：TwigVLM 在 Video-LLaVA 上的 RelAcc 从 VisionZip 的 93.2% 提升至 96.3%

亮点与洞察¶

先导实验驱动的设计：两个先导实验精准定位了现有方法的两个关键弱点，方法设计围绕这两个发现展开，逻辑清晰
一个模块两种用途：twig 模块同时用于 token 选择和推测解码，架构设计极其优雅
SSD 不损失精度：自推测解码产生与原始模型完全相同的输出，精度完全不受 SSD 影响
长回答场景的突破：在 MM-Vet 等需要生成长回答的场景中，TwigVLM 的加速优势（154%）远超仅做 token 剪枝的方法（~104%）
训练效率高：仅训练约 VLM 参数的一小部分，训练时间仅为 VLM 的约 10%

局限与展望¶

Twig 模块引入额外计算：虽然 twig 很浅（3 层），但在 prefilling 阶段仍增加了注意力计算开销
依赖后训练：需要对每个 base VLM 分别训练 twig 模块，不如纯推理时方法（如 FastV）灵活
超参数敏感性：\(K\)、\(T\)、\(K_f\) 的最优组合需要针对每个 VLM 单独调优
未探索更大模型：主实验集中在 7B 模型，更大模型（如 72B）上的效果尚未验证
SSD 的 token 接受率是瓶颈：当 twig 和 VLM 的分布差异大时，draft token 的接受率会下降

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 一个优雅的统一框架同时解决 token 剪枝和 decoding 加速两个问题
实验充分度: ⭐⭐⭐⭐⭐ — 三个 VLM 基准（图像+视频），六项消融，速度对比详尽
写作质量: ⭐⭐⭐⭐⭐ — 先导实验→动机→方法→实验的叙事逻辑极其清晰
价值: ⭐⭐⭐⭐⭐ — 首次揭示 decoding 加速对 VLM 部署的重要性，提供了简洁有效的解决方案