Topology-Aware Layer Pruning for Large Vision-Language Models¶

会议: ACL 2026
arXiv: 2604.16502
代码: GitHub
领域: 多模态VLM / 模型压缩
关键词: 层剪枝, 拓扑数据分析, 持久同调, 视觉语言模型, 模型压缩

一句话总结¶

提出基于拓扑数据分析的层剪枝框架 TopoVLM，将各层隐藏状态建模为点云并通过 zigzag 持久同调量化层间拓扑一致性，自适应保留关键表征转换层、剪除结构冗余层，在 50-60% 稀疏率下显著优于现有剪枝方法。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLMs）如 LLaVA-NeXT、VideoLLaMA2 在多模态理解任务上表现优异，但基于深层 Transformer 解码器架构带来的计算和内存开销限制了实际部署。层剪枝作为一种有效的结构化压缩策略受到关注。

现有痛点：现有层剪枝方法分为两类：(1) 基于相似性的方法（如 LLM-Pruner、LLM-Streamline）依赖相邻层之间的余弦相似度等局部指标；(2) 基于信号驱动的方法（如 SparseGPT、Wanda）依赖权重幅度、激活统计等静态代理信号。两类方法都只提供局部快照视角，无法捕捉表征沿模型深度的全局动态演化。

核心矛盾：LVLMs 的表征沿深度方向经历非单调的结构性变化——从细粒度视觉编码到视觉-语言对齐再到指令条件推理。局部看起来冗余的层可能实际上是不同语义阶段之间的关键桥梁，剪掉这些"过渡关键层"会导致非线性的性能退化。

本文目标：设计一种能捕捉表征全局演化过程的剪枝准则，区分真正的结构冗余层和过渡关键层。

切入角度：拓扑数据分析（TDA）关注数据的全局几何和结构组织，持久同调可以追踪拓扑特征（连通分量、环、空洞）在不同尺度上的生灭，恰好适合分析表征沿深度的动态演化。

核心 idea：将各层隐藏状态视为点云，用 k-近邻图构建单纯复形，通过 zigzag 持久同调追踪拓扑特征跨层的生灭模式，定义层间拓扑一致性来量化结构冗余度——高一致性意味着该层未引入新的拓扑结构，可以安全剪除。

方法详解¶

整体框架¶

输入图像-指令对经过 LVLM 得到各层隐藏状态，插入特殊 token [RET] 聚合多模态信息。将各层隐藏状态转化为点云，构建 k-近邻图和单纯复形，通过 zigzag 过滤计算持久同调，得到有效持久性图像（EPI）。从 EPI 中提取层间拓扑一致性分数，高于阈值的层被标记为可剪除层。

关键设计¶

Zigzag 过滤构建:
- 功能：捕捉表征沿模型深度的拓扑演化
- 核心思路：对每层 \(L_\ell\) 的隐藏状态 \(\mathbf{H}_{L_\ell} \in \mathbb{R}^{N \times d}\)，构建 k-近邻图并通过团扩展得到单纯复形 \(\mathcal{K}_{L_\ell}\)。相邻层之间定义交集复形 \(\mathcal{K}_{L_\ell, L_{\ell+1}} = \mathcal{K}_{L_\ell} \cap \mathcal{K}_{L_{\ell+1}}\)，形成 zigzag 过滤序列。对该序列计算 0 维和 1 维持久同调，得到拓扑特征的生灭区间
- 设计动机：经典持久同调要求单调过滤，无法处理层间表征的非单调变化。Zigzag 持久同调允许前向和后向包含映射，能追踪拓扑特征的出现、持续和消失
有效持久性图像（EPI）:
- 功能：将离散的持久性图转化为连续的层-持久性平面表示
- 核心思路：将每个生灭区间 \([b_j, d_j]\) 投影到最近的模型层索引得到有效区间 \([\tilde{b}_j, \tilde{d}_j]\)，然后用高斯核加权求和生成连续图像 \(\text{EPI}_p(u,v) = \sum_j \omega(\tau_j) \exp(-\frac{(u-\tilde{b}_j)^2 + (v-\tau_j)^2}{2\sigma^2})\)，其中 \(\tau_j\) 为持久性长度
- 设计动机：持久性图是离散多集，不便于后续的层级分析和比较。EPI 提供可微且稳定的表示，同时通过权重函数 \(\omega(\tau_j)\) 强调长寿命特征，抑制噪声
层间拓扑一致性与自适应剪枝:
- 功能：量化每层的结构冗余度并指导剪枝决策
- 核心思路：先计算层级拓扑活动度 \(A(\ell)\)（沿持久性维度聚合EPI），再计算层间一致性分数 \(\bar{S_p}(\ell)\)——衡量层 \(\ell\) 产生的拓扑特征在其他层持续存在的加权概率，使用距离权重 \(\omega(\ell, \ell') = |\ell - \ell'|^\alpha\)。一致性高于阈值 \(\epsilon \cdot \bar{S_p}^{max}\) 的层被剪除
- 设计动机：高一致性意味着该层的拓扑贡献在其他层已被覆盖，移除它不会破坏全局拓扑连续性。这与局部相似性度量的本质区别在于：它考虑的是全局结构演化中的冗余而非相邻层的局部相似

损失函数 / 训练策略¶

无需训练，是纯推理时的剪枝方法。仅需一次校准前向传播（512 个样本），zigzag 过滤离线完成，不引入推理时开销。超参数包括 k-近邻的 k 值和距离权重指数 α。

实验关键数据¶

主实验¶

LLaVA-NeXT (8B) 50% 稀疏率：

方法	MME-cognition	MMMU	MathVista	MMBench	相对得分
Full Model	376.8	40.1	36.2	72.2	100%
TAMP	341.0	35.7	31.9	66.3	90.9%
Ours	353.1	38.2	34.6	69.8	91.6%

VideoLLaMA2 (7B) 60% 稀疏率：

方法	Clotho-AQA	MuchoMusic	VideoMME	NextQA-MC	相对得分
Full Model	85.6	58.9	48.7	73.3	100%
TAMP	84.2	55.9	42.5	70.9	95.0%
Ours	84.9	58.1	48.0	72.5	96.7%

消融实验¶

配置	说明	相对得分变化
去除 zigzag（仅用标准PH）	无法处理非单调演化	-2.1%
去除 EPI（用原始PD）	层级分析不稳定	-1.5%
k=5 vs k=15 vs k=25	k=15 最优，过小/过大均退化	k=15 最佳
α=0.5 vs α=1.0 vs α=2.0	α=1.0 最优	α=1.0 最佳

关键发现¶

浅层拓扑活动度高（形成低级多模态结构），中深层拓扑一致性高（结构冗余），与直觉一致
在高稀疏率（>60%）下优势更明显，说明拓扑感知剪枝能更准确识别真正重要的层
搜索阶段仅需 5.7 分钟（单次校准），远快于需要多次前向传播的 SparseGPT/Wanda
50% 稀疏率下 VRAM 降低 43%，推理延迟从 105.4ms 降至 60.3ms（1.75x 加速）

亮点与洞察¶

TDA → 模型压缩的创新连接非常优雅——将持久同调从纯数学工具转化为实用的剪枝准则，为理解深度网络的表征结构提供了新视角
"过渡关键层"概念有启发性——局部看冗余但全局看不可缺少的层，传统方法难以识别，拓扑分析天然适合这类全局结构推理
方法的通用性值得注意——不依赖特定模型架构，在图像和视频 LVLM 上均有效，可直接迁移到纯 LLM 或其他模态

局限与展望¶

仅考虑 0 维和 1 维持久同调，更高维可能包含有价值的结构信息但计算开销更大
校准数据的选择可能影响拓扑分析结果，对分布外数据的鲁棒性有待验证
目前是一次性剪枝，未探索渐进式剪枝或微调后恢复的可能性
zigzag 过滤的计算复杂度虽然线性于层数，但实际实现的效率仍受点云规模影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 zigzag 持久同调应用于 LVLM 层剪枝，理论新颖且实用
实验充分度: ⭐⭐⭐⭐ 覆盖两种架构和多种基准，但仅在两个模型上验证，更大规模模型缺失
写作质量: ⭐⭐⭐⭐ 数学形式化清晰，但对非 TDA 背景读者门槛较高
价值: ⭐⭐⭐⭐ 为模型压缩提供了新的理论工具，但实际部署中需要 TDA 专业知识