Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation¶

会议: ICCV 2025
arXiv: 2507.09612
代码: Inter2Former
领域: 交互式分割
关键词: 交互式分割, 高精度分割, 混合注意力, BSQ 注意力, 动态计算分配

一句话总结¶

提出 Inter2Former，通过动态混合注意力（DHA）将边界 token 路由到全注意力、非边界 token 路由到线性复杂度的 BSQ 注意力，配合动态提示嵌入（DPE）、混合专家（HMoE）和动态局部上采样（DLU），在 CPU 设备上实现高精度交互式分割的 SOTA 性能与高效推理。

研究背景与动机¶

交互式分割（IS）通过用户点击等提示分割目标区域，广泛应用于医学影像标注、工业缺陷检测等场景。当前方法面临关键权衡：

Dense-token 方法（如 InterFormer）：将点击编码为密集提示 token，空间感知能力强，分割精度高，但计算量大，在 CPU 上推理极慢（每步 >1 秒）

Sparse-token 方法（如 SAM）：使用稀疏提示 token 进行高效交叉注意力，推理快，但牺牲了空间感知和边界精度

核心矛盾：密集 token 的精度 vs 稀疏 token 的效率，如何兼得？

关键洞察：dense-token 方法效率低的根源在于计算资源分配不合理： - 交互式分割中，主要对象通常在前几次点击后已确定，后续点击主要聚焦于边界细化 - 现有模型对所有 token 均匀分配计算，浪费了大量计算在已确定的对象主体区域 - 每一步的分割结果包含边界线索，但现有方法仅将其作为输入特征而未充分利用于计算优化

方法详解¶

整体框架¶

Inter2Former 采用编码器-解码器两阶段流水线： - 编码器：HRSAM 的 Flash Swin（预处理阶段，仅执行一次） - 解码器（交互阶段）：DPE → DHA + HMoE（×2 层）→ DLU

四大核心模块均围绕"动态计算分配"的理念设计。

关键设计¶

1. 动态提示嵌入（DPE）¶

传统方法对整个图像的参考掩码做卷积编码，DPE 仅处理感兴趣区域：

检测包含所有点击区域和前景预测的边界框 $\mathcal{B}$
仅在该局部区域内做可学习嵌入 + 4 层 stride-2 卷积下采样
局部特征 $\mathbf{F}_\mathcal{B}$ 拼接在可学习背景嵌入 $\mathbf{e}_{bg}$ 构成的全局图中

效果：小目标时仅需 <25% 的计算量；保持全局上下文通过背景嵌入。

2. 动态混合注意力（DHA）¶

核心创新——利用上一步分割掩码的边界信息路由 token：

边界检测： $$\mathbf{E}_{k-1} = \text{Pool}\left(\mathbb{1}\{\text{Conv}(\mathbf{M}_{k-1}^2) - \text{Conv}(\mathbf{M}_{k-1})^2 > 0\}\right)$$

通过 7×7 均匀卷积估计局部方差，非零方差区域即为边界。

路由策略： - 边界 token $\mathbf{Q}_{FA}$（少数）→ 标准全注意力 $O(N^2)$，获取全局上下文 - 非边界 token $\mathbf{Q}_{BSQ}$（多数）→ BSQ 注意力 $O(N)$，线性复杂度

两组共享同一份 Key-Value 矩阵 $(\mathbf{K}, \mathbf{V})$。

3. BSQ 注意力（BSQA）¶

受 Transformer-VQ 启发，但用 Binary Spherical Quantization 替代传统 VQ：

VQ 注意力的问题： - 码本利用率低（只使用少数码本向量） - STE 梯度近似误差不可控

BSQ 方案： 1. 将 Key 映射到低维空间：$\mathbf{B} = \mathbf{K}\mathbf{W}_{BSQ} \in \mathbb{R}^{N \times S}$ 2. 投影到单位超球面：$\mathbf{U} = \mathbf{B}/\|\mathbf{B}\|_2$ 3. 二值量化：$\hat{\mathbf{U}} = \text{sign}(\mathbf{U})/\sqrt{S}$ 4. 通过可学习基向量 $\mathbf{C}_{base}^0, \mathbf{C}_{base}^1$ 重建量化 Key

S 位二值编码 → $2^S$ 种码本向量，天然避免了码本坍塌。量化误差有理论上界且训练中接近零，保证了精确的梯度估计。

复杂度：$O(NS) = O(N)$（S 为固定位数，默认 8 位）。

4. 混合专家（HMoE）¶

FFN 层采用类似 DHA 的混合策略： - 非边界 token → 仅通过共享专家 $\text{FFN}_M$ - 边界 token → 路由到最佳专家 $\text{FFN}_{a_t}$ + 共享专家，加权求和

CPU 优化：通过 token 重排将属于同一专家的 token 聚合为连续内存块，使用 C++ 扩展进行批量矩阵运算，实现 56-85% 的延迟降低。

5. 动态局部上采样（DLU）¶

DPE 的逆操作： - 定位分支：轻量 MLP 生成低分辨率掩码 → 检测对象边界框 - 精化分支：仅在检测区域内做边缘引导上采样（CannyNet 提取边缘特征 + 4 层反卷积 + 特征融合）

损失函数 / 训练策略¶

BSQA 训练：训练时用量化 Key 做标准全注意力计算（鼓励量化逼近标准注意力）；推理时切换到线性复杂度计算
DLU 训练：同时监督低分辨率和高分辨率掩码输出
损失函数：NFL（Normalized Focal Loss），交互式分割标准损失
编码器初始化：MAE 预训练或 SAM 蒸馏

实验关键数据¶

主实验（高精度 IS 基准）¶

模型	CPU 时间 (20-SPC/Online ms)	HQSeg44K 5-mIoU	HQSeg44K NoC90	DAVIS 5-mIoU	DAVIS NoC95
InterFormer-ViT-B	1020/188	82.62	7.17	87.79	11.88
SegNext(×2)-ViT-B	1519/1400	91.75	5.32	91.87	10.73
HRSAM++-ViT-B 2048	273/105	91.50	5.41	90.79	10.84
HQ-SAM-ViT-B	167/54	89.85	6.49	91.77	10.00
Inter2Former 2048	300/131	92.68	4.24	92.00	7.82

Inter2Former 在所有指标上达到 SOTA，且推理速度与 HRSAM++ 相当（Online SPC 131ms vs 105ms），远快于 SegNext（131ms vs 1400ms）。

消融实验¶

配置	HQSeg44K 5-mIoU	HQSeg44K NoC90	DAVIS 5-mIoU	DAVIS NoC95
Inter2Former-Base	92.68	4.24	92.00	7.82
DHA → All FA	92.61	4.24	92.26	7.78
DHA → All BSQA	90.12	5.64	89.31	9.75
BSQA → VQA	91.07	4.82	90.31	8.86
DPE → Non-DPE	92.86	4.19	92.17	7.94
DLU → Non-DLU	92.76	4.22	92.13	7.90

DHA 性能接近 All FA但远快；All BSQA 性能显著下降 → 验证了混合策略的必要性
BSQA 明显优于 VQA → BSQ 量化优于传统 VQ
DPE/DLU 对性能影响极小但大幅降低延迟 → 有效的效率优化

关键发现¶

边界/非边界混合计算是最优解：全用全注意力慢但无性能增益；全用 BSQA 快但掉 2.5+ 点
BSQ 量化优于 VQ：VQA 因码本利用率低和梯度近似误差导致性能下降 1.5+ 点
DPE/DLU 实现"免费午餐"：性能几乎无损但显著降低延迟（小目标时 <25% 计算量）
HMoE 的 CPU 优化关键：token 重排 + C++ 批量矩阵运算使 MoE 在 CPU 上可用（延迟降低 56-85%）
模型在细线结构上表现优异：定性结果展示了在 20 次点击下对细长结构的精确分割

亮点与洞察¶

从交互式分割的迭代特性出发：利用上一步掩码的边界信息指导当前步的计算分配，自然而优雅
BSQ 注意力的创新应用：首次将 BSQ 引入视觉注意力机制，解决了 VQ 注意力的两个根本缺陷
面向 CPU 的实际优化：不仅是理论上的加速，通过 C++ 扩展和 token 重排实现了真实 CPU 延迟降低
完整的动态计算系统：DPE/DHA/HMoE/DLU 四个模块从输入到输出贯彻动态分配理念

局限与展望¶

2048 分辨率下 Online SPC 为 131ms，对实时标注仍有一定延迟
BSQA 使用固定 8 位码本，更大码本可能提升性能但增加开销
边界检测基于简单的局部方差，可能不适用于极度模糊的边界
未探索在 GPU 上的加速效果
HMoE 中仅选择 top-1 专家，多专家路由可能进一步提升边界区域的处理能力

评分¶

新颖性: ⭐⭐⭐⭐ — BSQ 注意力和边界引导的混合计算分配有显著创新
技术深度: ⭐⭐⭐⭐⭐ — 四个模块各有技术深度，系统设计完整
实用价值: ⭐⭐⭐⭐ — 对 CPU 环境下的高精度标注有直接应用价值
写作质量: ⭐⭐⭐⭐ — 方法阐述清楚，效率分析详尽