MPM: Mutual Pair Merging for Efficient Vision Transformers¶

会议: CVPR 2026
arXiv: 2604.05718
代码: 无
领域: 分割
关键词: Token合并, 语义分割, Vision Transformer, 推理加速, 无训练方法

一句话总结¶

提出 Mutual Pair Merging (MPM)，一个无参数、无训练的 ViT token 合并模块，通过互近邻配对+均值融合来减少序列长度，在 ADE20K 上 ViT-Tiny 的 Raspberry Pi 5 延迟降低 60%，H100 上 FlashAttention-2 下吞吐量提升 20%，mIoU 下降控制在 3% 以内。

研究背景与动机¶

领域现状：Vision Transformer 在语义分割中表现优秀，但自注意力的 \(O(N^2)\) 复杂度使得推理成本随分辨率增加而快速上升。减少序列长度（token reduction）是加速的自然思路，已有方法包括 token 剪枝/选择（DynamicViT、EViT）和 token 聚合/合并（ToMe、ALGM）。
现有痛点：(a) 大多数 token reduction 工作针对分类任务，分割任务需要重建像素级对齐的稠密特征，对 token reduction 有更严格的约束；(b) 现有方法常报告 FLOPs 或理论加速比，但在现代加速器（如带 FlashAttention 的 GPU）上，合并操作的开销可能抵消甚至反转预期增益；(c) 许多方法需要微调或额外训练参数，阻碍即插即用部署。
核心矛盾：token reduction 在理论上减少了计算量，但 (a) 在分割中需要重建完整 token 序列给解码器，(b) 在优化过的 GPU 核心上，合并操作的额外开销可能抹平加速收益，(c) 变长序列需要 padding 影响批处理吞吐。
本文目标 设计一个真正能在端到端墙钟时间上提速的、无训练的分割专用 token 合并方法，并诚实地量化包含合并开销在内的实际延迟。
切入角度：用最简单的设计——互近邻配对+均值融合——来最小化开销，通过离散的插入位置选择（而非连续阈值/保留率）来控制速度-精度权衡，并保存合并映射做精确重建。
核心 idea：在特征空间中用余弦相似度找互近邻 token 对并平均合并，通过整数 merge map 实现 gather 式精确重建，使分割解码器无需任何修改。

方法详解¶

整体框架¶

输入图像经 ViT patch embedding 得到 \(N\) 个 image tokens。MPM 模块被插入到 ViT 编码器的特定层之前（默认第 3 层和第 6 层，0-based index 2 和 5）。每次插入将 token 数量减少（最多减半但实际取决于数据），后续层在更少的 token 上运算。编码完成后，用保存的 merge map 通过 gather 操作恢复原始 \(N\) 个 token 的序列，然后送入标准的 Mask Transformer 解码器做分割预测。

关键设计¶

互近邻配对合并 (Mutual Nearest-Neighbor Pairing):
- 功能：确定性地找到最应该合并的 token 对
- 核心思路：对所有 image tokens 做 L2 归一化后算稠密余弦相似度矩阵 \(S = \tilde{X}\tilde{X}^\top\)。对每个 token \(i\)，找最相似邻居 \(b(i) = \arg\max_{j \neq i} S_{ij}\)。只有互为最近邻的 token 对 \((i,j)\)（即 \(b(i)=j\) 且 \(b(j)=i\)）才合并，取较小索引作为代表，合并为两者的均值。没有互近邻的 token 保持不变（singleton）。整个过程无学习参数、确定性、无需调阈值。
- 设计动机：互近邻条件保证了合并的对称性和确定性——避免了 ToMe 中二部图匹配的复杂性，也避免了 "一个热门 token 被多个 token 抢着合并"的冲突。理论上最多减少 50% token 但实际因不是所有 token 都找到互近邻，减少量是自适应的。
多阶段 Merge Map 组合与重建:
- 功能：支持多次 MPM 插入，并在解码前精确恢复原始序列长度
- 核心思路：每次 MPM 调用返回一个整数映射向量 \(r\)，记录原始 token → 合并后代表的映射。两阶段的映射通过简单的索引操作组合：\(r^{(*)}(i) = r^{(2)}(r^{(1)}(i))\)。编码结束后，通过 \(Z_{\text{img}}^{\uparrow}[i] = Z_{\text{img}}[r^{(*)}(i)]\) 一步 gather 恢复完整序列。这是纯复制操作，保持了原始的光栅扫描顺序，解码器无需任何修改。
- 设计动机：分割解码器（如 Mask Transformer）期望接收完整的 \(\frac{H}{P} \times \frac{W}{P}\) 网格特征。通过存储和组合 merge map，可以在不修改解码器的前提下进行任意深度的 token 合并。
离散插入调度 (Discrete Insertion Schedule):
- 功能：控制速度-精度权衡的唯一旋钮
- 核心思路：MPM 没有连续的压缩参数（无保留率、无阈值），速度-精度权衡完全由"在哪几层插入 MPM"决定。默认在第 3 层和第 6 层各插入一次。早期插入减少更多后续计算但影响精度更大，晚期插入精度影响小但加速也更小。这种设计使得在线部署时无需根据场景变化调参——固定场景（如安防摄像头）光照条件变化时，无阈值方法的行为自然适应。
- 设计动机：在实际部署中（如 Raspberry Pi 固定场景监控），光照/天气/场景统计随时间变化，手动选择的阈值或保留率可能不再适用。无旋钮设计消除了这个问题。论文展示了同一图像白天/黑夜下的合并行为差异——夜间约少合并 6% 的 token。

损失函数 / 训练策略¶

MPM 是完全无训练的模块，直接插入预训练好的 ViT 编码器中使用，不需要任何微调。

实验关键数据¶

主实验（ADE20K，H100 无 FlashAttention）¶

模型	方法	mIoU	GFLOPs	FPS (B=32)
Seg-T/16	无合并	38.1	25	660
Seg-T/16	ToMe	38.1	~19	751
Seg-T/16	ALGM*	38.9	~16.7	665
Seg-T/16	MPM(2,5)	37.6	~17.6	831
Seg-B/16	无合并	48.5	258	133
Seg-B/16	MPM(2,5)	48.0	~184	177
Seg-L/16	无合并	51.7	800	47
Seg-L/16	MPM(2,5)	50.4	~496	74

跨平台延迟对比¶

平台	ViT-T 原始	MPM	加速比
Raspberry Pi 5 (B=1)	1.06 FPS	1.71 FPS	1.61×
Raspberry Pi 5 (B=2)	1.05 FPS	1.75 FPS	1.67×
H100 FA2 (B=32, ViT-L)	375 FPS	456 FPS	1.22×

消融实验（插入位置影响）¶

插入位置越早，压缩越多、加速越大、精度损失越大。默认的 (2,5) 在多个数据集和模型规模上提供了一致的 Pareto 最优权衡。

关键发现¶

实际墙钟增益与 FLOPs 减少不完全成正比：在有 FlashAttention-2 的 H100 上，FLOPs 减少 38% 但 FPS 仅提升 22%（ViT-L），因为 FA2 本身极度优化了注意力计算
在 Raspberry Pi 5 上增益最大：边缘设备缺乏并行化优化，token 数量的减少直接转化为延迟的线性下降
合并操作的局部性：尽管 MPM 是全局配对（无局部约束），实际中大多数互近邻对发生在空间邻近的 patch 之间——方法自然发现了空间局部性
mIoU 下降控制良好：最大模型 Seg-L/16 从 51.7 降到 50.4（-1.3），最小模型 Seg-T/16 从 38.1 降到 37.6（-0.5）
跨数据集一致：在 ADE20K、Pascal Context、Cityscapes 上均保持合理的加速-精度权衡

亮点与洞察¶

诚实的效率评估是这篇论文最大的亮点：很多 token reduction 工作只报告 FLOPs，本文在 Raspberry Pi 5 和 H100（有/无 FlashAttention-2）上测量包含合并开销的端到端延迟，并分离了 merge+reconstruction 时间。这为该方向设立了更高的评估标准
"无旋钮"设计哲学值得借鉴：通过互近邻的自然稀疏性实现自适应压缩（不是每个 token 都找得到互近邻），避免了需要跨数据集调整的超参数。这对在线部署尤其有价值
简单即有效：整个方法就是余弦相似度 + 互近邻 + 平均值 + gather，没有任何可学习参数，但在多个平台上实现了与更复杂方法（如需要训练的 CTS、ALGM）相当甚至更好的加速

局限与展望¶

mIoU 下降虽然不大但始终存在，对精度要求极高的医疗分割等场景可能不适用
与 ALGM 等需微调的方法相比，MPM 在 mIoU 上通常略低（ALGM 有时甚至提升 mIoU），说明无训练方法在精度上有天花板
互近邻配对的 \(O(N^2)\) 相似度计算本身有开销，虽然目前足够小但在超高分辨率下可能成为瓶颈
没有探索与其他加速技术（如知识蒸馏、量化）的结合
变长序列对批处理的影响分析不够深入——padding 策略可能影响实际吞吐

评分¶

新颖性: ⭐⭐⭐ 核心思路（互近邻合并）非常简单，技术上的新颖度有限，但"无旋钮+分割重建"的设计定位有独特价值
实验充分度: ⭐⭐⭐⭐⭐ 三个分割数据集、四种模型规模、三个硬件平台（Pi5/H100/H100+FA2）、多种batch size的端到端延迟，在效率评估方面树立了标杆
写作质量: ⭐⭐⭐⭐ 方法描述精确，设计选择的动机解释清晰，对局限性的讨论坦诚
价值: ⭐⭐⭐⭐ 对 token reduction 在分割任务中的实际收益提供了清晰的量化证据，对边缘部署有实用价值