跳转至

Topology-Aware Layer Pruning for Large Vision-Language Models

会议: ACL 2026
arXiv: 2604.16502
代码: GitHub
领域: 多模态VLM / 模型压缩
关键词: 层剪枝, 拓扑数据分析, 持久同调, 视觉语言模型, 模型压缩

一句话总结

提出基于拓扑数据分析的层剪枝框架 TopoVLM,将各层隐藏状态建模为点云并通过 zigzag 持久同调量化层间拓扑一致性,自适应保留关键表征转换层、剪除结构冗余层,在 50-60% 稀疏率下显著优于现有剪枝方法。

研究背景与动机

领域现状:大型视觉语言模型(LVLMs)如 LLaVA-NeXT、VideoLLaMA2 在多模态理解任务上表现优异,但基于深层 Transformer 解码器架构带来的计算和内存开销限制了实际部署。层剪枝作为一种有效的结构化压缩策略受到关注。

现有痛点:现有层剪枝方法分为两类:(1) 基于相似性的方法(如 LLM-Pruner、LLM-Streamline)依赖相邻层之间的余弦相似度等局部指标;(2) 基于信号驱动的方法(如 SparseGPT、Wanda)依赖权重幅度、激活统计等静态代理信号。两类方法都只提供局部快照视角,无法捕捉表征沿模型深度的全局动态演化。

核心矛盾:LVLMs 的表征沿深度方向经历非单调的结构性变化——从细粒度视觉编码到视觉-语言对齐再到指令条件推理。局部看起来冗余的层可能实际上是不同语义阶段之间的关键桥梁,剪掉这些"过渡关键层"会导致非线性的性能退化。

本文目标:设计一种能捕捉表征全局演化过程的剪枝准则,区分真正的结构冗余层和过渡关键层。

切入角度:拓扑数据分析(TDA)关注数据的全局几何和结构组织,持久同调可以追踪拓扑特征(连通分量、环、空洞)在不同尺度上的生灭,恰好适合分析表征沿深度的动态演化。

核心 idea:将各层隐藏状态视为点云,用 k-近邻图构建单纯复形,通过 zigzag 持久同调追踪拓扑特征跨层的生灭模式,定义层间拓扑一致性来量化结构冗余度——高一致性意味着该层未引入新的拓扑结构,可以安全剪除。

方法详解

整体框架

输入图像-指令对经过 LVLM 得到各层隐藏状态,插入特殊 token [RET] 聚合多模态信息。将各层隐藏状态转化为点云,构建 k-近邻图和单纯复形,通过 zigzag 过滤计算持久同调,得到有效持久性图像(EPI)。从 EPI 中提取层间拓扑一致性分数,高于阈值的层被标记为可剪除层。

关键设计

  1. Zigzag 过滤构建:

    • 功能:捕捉表征沿模型深度的拓扑演化
    • 核心思路:对每层 \(L_\ell\) 的隐藏状态 \(\mathbf{H}_{L_\ell} \in \mathbb{R}^{N \times d}\),构建 k-近邻图并通过团扩展得到单纯复形 \(\mathcal{K}_{L_\ell}\)。相邻层之间定义交集复形 \(\mathcal{K}_{L_\ell, L_{\ell+1}} = \mathcal{K}_{L_\ell} \cap \mathcal{K}_{L_{\ell+1}}\),形成 zigzag 过滤序列。对该序列计算 0 维和 1 维持久同调,得到拓扑特征的生灭区间
    • 设计动机:经典持久同调要求单调过滤,无法处理层间表征的非单调变化。Zigzag 持久同调允许前向和后向包含映射,能追踪拓扑特征的出现、持续和消失
  2. 有效持久性图像(EPI):

    • 功能:将离散的持久性图转化为连续的层-持久性平面表示
    • 核心思路:将每个生灭区间 \([b_j, d_j]\) 投影到最近的模型层索引得到有效区间 \([\tilde{b}_j, \tilde{d}_j]\),然后用高斯核加权求和生成连续图像 \(\text{EPI}_p(u,v) = \sum_j \omega(\tau_j) \exp(-\frac{(u-\tilde{b}_j)^2 + (v-\tau_j)^2}{2\sigma^2})\),其中 \(\tau_j\) 为持久性长度
    • 设计动机:持久性图是离散多集,不便于后续的层级分析和比较。EPI 提供可微且稳定的表示,同时通过权重函数 \(\omega(\tau_j)\) 强调长寿命特征,抑制噪声
  3. 层间拓扑一致性与自适应剪枝:

    • 功能:量化每层的结构冗余度并指导剪枝决策
    • 核心思路:先计算层级拓扑活动度 \(A(\ell)\)(沿持久性维度聚合EPI),再计算层间一致性分数 \(\bar{S_p}(\ell)\)——衡量层 \(\ell\) 产生的拓扑特征在其他层持续存在的加权概率,使用距离权重 \(\omega(\ell, \ell') = |\ell - \ell'|^\alpha\)。一致性高于阈值 \(\epsilon \cdot \bar{S_p}^{max}\) 的层被剪除
    • 设计动机:高一致性意味着该层的拓扑贡献在其他层已被覆盖,移除它不会破坏全局拓扑连续性。这与局部相似性度量的本质区别在于:它考虑的是全局结构演化中的冗余而非相邻层的局部相似

损失函数 / 训练策略

无需训练,是纯推理时的剪枝方法。仅需一次校准前向传播(512 个样本),zigzag 过滤离线完成,不引入推理时开销。超参数包括 k-近邻的 k 值和距离权重指数 α。

实验关键数据

主实验

LLaVA-NeXT (8B) 50% 稀疏率:

方法 MME-cognition MMMU MathVista MMBench 相对得分
Full Model 376.8 40.1 36.2 72.2 100%
TAMP 341.0 35.7 31.9 66.3 90.9%
Ours 353.1 38.2 34.6 69.8 91.6%

VideoLLaMA2 (7B) 60% 稀疏率:

方法 Clotho-AQA MuchoMusic VideoMME NextQA-MC 相对得分
Full Model 85.6 58.9 48.7 73.3 100%
TAMP 84.2 55.9 42.5 70.9 95.0%
Ours 84.9 58.1 48.0 72.5 96.7%

消融实验

配置 说明 相对得分变化
去除 zigzag(仅用标准PH) 无法处理非单调演化 -2.1%
去除 EPI(用原始PD) 层级分析不稳定 -1.5%
k=5 vs k=15 vs k=25 k=15 最优,过小/过大均退化 k=15 最佳
α=0.5 vs α=1.0 vs α=2.0 α=1.0 最优 α=1.0 最佳

关键发现

  • 浅层拓扑活动度高(形成低级多模态结构),中深层拓扑一致性高(结构冗余),与直觉一致
  • 在高稀疏率(>60%)下优势更明显,说明拓扑感知剪枝能更准确识别真正重要的层
  • 搜索阶段仅需 5.7 分钟(单次校准),远快于需要多次前向传播的 SparseGPT/Wanda
  • 50% 稀疏率下 VRAM 降低 43%,推理延迟从 105.4ms 降至 60.3ms(1.75x 加速)

亮点与洞察

  • TDA → 模型压缩的创新连接非常优雅——将持久同调从纯数学工具转化为实用的剪枝准则,为理解深度网络的表征结构提供了新视角
  • "过渡关键层"概念有启发性——局部看冗余但全局看不可缺少的层,传统方法难以识别,拓扑分析天然适合这类全局结构推理
  • 方法的通用性值得注意——不依赖特定模型架构,在图像和视频 LVLM 上均有效,可直接迁移到纯 LLM 或其他模态

局限与展望

  • 仅考虑 0 维和 1 维持久同调,更高维可能包含有价值的结构信息但计算开销更大
  • 校准数据的选择可能影响拓扑分析结果,对分布外数据的鲁棒性有待验证
  • 目前是一次性剪枝,未探索渐进式剪枝或微调后恢复的可能性
  • zigzag 过滤的计算复杂度虽然线性于层数,但实际实现的效率仍受点云规模影响

相关工作与启发

  • vs LLM-Pruner / LLM-Streamline: 基于相邻层余弦相似度的局部指标,无法捕捉全局表征演化;本文通过 zigzag PH 提供全局视角
  • vs TAMP: TAMP 是最强基线但仍依赖局部信号;本文在高稀疏率下优势更明显
  • vs TDA 在 LLM 中的其他应用: 现有 TDA 工作主要用于幻觉检测和推理分析,本文首次将其用于结构化剪枝

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 zigzag 持久同调应用于 LVLM 层剪枝,理论新颖且实用
  • 实验充分度: ⭐⭐⭐⭐ 覆盖两种架构和多种基准,但仅在两个模型上验证,更大规模模型缺失
  • 写作质量: ⭐⭐⭐⭐ 数学形式化清晰,但对非 TDA 背景读者门槛较高
  • 价值: ⭐⭐⭐⭐ 为模型压缩提供了新的理论工具,但实际部署中需要 TDA 专业知识

相关论文