跳转至

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation

会议: ICCV 2025
arXiv: 2507.09612
代码: Inter2Former
领域: 交互式分割
关键词: 交互式分割, 高精度分割, 混合注意力, BSQ 注意力, 动态计算分配

一句话总结

提出 Inter2Former,通过动态混合注意力(DHA)将边界 token 路由到全注意力、非边界 token 路由到线性复杂度的 BSQ 注意力,配合动态提示嵌入(DPE)、混合专家(HMoE)和动态局部上采样(DLU),在 CPU 设备上实现高精度交互式分割的 SOTA 性能与高效推理。

研究背景与动机

交互式分割(IS)通过用户点击等提示分割目标区域,广泛应用于医学影像标注、工业缺陷检测等场景。当前方法面临关键权衡:

Dense-token 方法(如 InterFormer):将点击编码为密集提示 token,空间感知能力强,分割精度高,但计算量大,在 CPU 上推理极慢(每步 >1 秒)

Sparse-token 方法(如 SAM):使用稀疏提示 token 进行高效交叉注意力,推理快,但牺牲了空间感知和边界精度

核心矛盾:密集 token 的精度 vs 稀疏 token 的效率,如何兼得?

关键洞察:dense-token 方法效率低的根源在于计算资源分配不合理: - 交互式分割中,主要对象通常在前几次点击后已确定,后续点击主要聚焦于边界细化 - 现有模型对所有 token 均匀分配计算,浪费了大量计算在已确定的对象主体区域 - 每一步的分割结果包含边界线索,但现有方法仅将其作为输入特征而未充分利用于计算优化

方法详解

整体框架

Inter2Former 采用编码器-解码器两阶段流水线: - 编码器:HRSAM 的 Flash Swin(预处理阶段,仅执行一次) - 解码器(交互阶段):DPE → DHA + HMoE(×2 层)→ DLU

四大核心模块均围绕"动态计算分配"的理念设计。

关键设计

1. 动态提示嵌入(DPE)

传统方法对整个图像的参考掩码做卷积编码,DPE 仅处理感兴趣区域:

  • 检测包含所有点击区域和前景预测的边界框 \(\mathcal{B}\)
  • 仅在该局部区域内做可学习嵌入 + 4 层 stride-2 卷积下采样
  • 局部特征 \(\mathbf{F}_\mathcal{B}\) 拼接在可学习背景嵌入 \(\mathbf{e}_{bg}\) 构成的全局图中

效果:小目标时仅需 <25% 的计算量;保持全局上下文通过背景嵌入。

2. 动态混合注意力(DHA)

核心创新——利用上一步分割掩码的边界信息路由 token:

边界检测: $\(\mathbf{E}_{k-1} = \text{Pool}\left(\mathbb{1}\{\text{Conv}(\mathbf{M}_{k-1}^2) - \text{Conv}(\mathbf{M}_{k-1})^2 > 0\}\right)\)$

通过 7×7 均匀卷积估计局部方差,非零方差区域即为边界。

路由策略: - 边界 token \(\mathbf{Q}_{FA}\)(少数)→ 标准全注意力 \(O(N^2)\),获取全局上下文 - 非边界 token \(\mathbf{Q}_{BSQ}\)(多数)→ BSQ 注意力 \(O(N)\),线性复杂度

两组共享同一份 Key-Value 矩阵 \((\mathbf{K}, \mathbf{V})\)

3. BSQ 注意力(BSQA)

受 Transformer-VQ 启发,但用 Binary Spherical Quantization 替代传统 VQ:

VQ 注意力的问题: - 码本利用率低(只使用少数码本向量) - STE 梯度近似误差不可控

BSQ 方案: 1. 将 Key 映射到低维空间:\(\mathbf{B} = \mathbf{K}\mathbf{W}_{BSQ} \in \mathbb{R}^{N \times S}\) 2. 投影到单位超球面:\(\mathbf{U} = \mathbf{B}/\|\mathbf{B}\|_2\) 3. 二值量化:\(\hat{\mathbf{U}} = \text{sign}(\mathbf{U})/\sqrt{S}\) 4. 通过可学习基向量 \(\mathbf{C}_{base}^0, \mathbf{C}_{base}^1\) 重建量化 Key

S 位二值编码 → \(2^S\) 种码本向量,天然避免了码本坍塌。量化误差有理论上界且训练中接近零,保证了精确的梯度估计。

复杂度\(O(NS) = O(N)\)(S 为固定位数,默认 8 位)。

4. 混合专家(HMoE)

FFN 层采用类似 DHA 的混合策略: - 非边界 token → 仅通过共享专家 \(\text{FFN}_M\) - 边界 token → 路由到最佳专家 \(\text{FFN}_{a_t}\) + 共享专家,加权求和

CPU 优化:通过 token 重排将属于同一专家的 token 聚合为连续内存块,使用 C++ 扩展进行批量矩阵运算,实现 56-85% 的延迟降低。

5. 动态局部上采样(DLU)

DPE 的逆操作: - 定位分支:轻量 MLP 生成低分辨率掩码 → 检测对象边界框 - 精化分支:仅在检测区域内做边缘引导上采样(CannyNet 提取边缘特征 + 4 层反卷积 + 特征融合)

损失函数 / 训练策略

  • BSQA 训练:训练时用量化 Key 做标准全注意力计算(鼓励量化逼近标准注意力);推理时切换到线性复杂度计算
  • DLU 训练:同时监督低分辨率和高分辨率掩码输出
  • 损失函数:NFL(Normalized Focal Loss),交互式分割标准损失
  • 编码器初始化:MAE 预训练或 SAM 蒸馏

实验关键数据

主实验(高精度 IS 基准)

模型 CPU 时间 (20-SPC/Online ms) HQSeg44K 5-mIoU HQSeg44K NoC90 DAVIS 5-mIoU DAVIS NoC95
InterFormer-ViT-B 1020/188 82.62 7.17 87.79 11.88
SegNext(×2)-ViT-B 1519/1400 91.75 5.32 91.87 10.73
HRSAM++-ViT-B 2048 273/105 91.50 5.41 90.79 10.84
HQ-SAM-ViT-B 167/54 89.85 6.49 91.77 10.00
Inter2Former 2048 300/131 92.68 4.24 92.00 7.82

Inter2Former 在所有指标上达到 SOTA,且推理速度与 HRSAM++ 相当(Online SPC 131ms vs 105ms),远快于 SegNext(131ms vs 1400ms)。

消融实验

配置 HQSeg44K 5-mIoU HQSeg44K NoC90 DAVIS 5-mIoU DAVIS NoC95
Inter2Former-Base 92.68 4.24 92.00 7.82
DHA → All FA 92.61 4.24 92.26 7.78
DHA → All BSQA 90.12 5.64 89.31 9.75
BSQA → VQA 91.07 4.82 90.31 8.86
DPE → Non-DPE 92.86 4.19 92.17 7.94
DLU → Non-DLU 92.76 4.22 92.13 7.90
  • DHA 性能接近 All FA但远快;All BSQA 性能显著下降 → 验证了混合策略的必要性
  • BSQA 明显优于 VQA → BSQ 量化优于传统 VQ
  • DPE/DLU 对性能影响极小但大幅降低延迟 → 有效的效率优化

关键发现

  1. 边界/非边界混合计算是最优解:全用全注意力慢但无性能增益;全用 BSQA 快但掉 2.5+ 点
  2. BSQ 量化优于 VQ:VQA 因码本利用率低和梯度近似误差导致性能下降 1.5+ 点
  3. DPE/DLU 实现"免费午餐":性能几乎无损但显著降低延迟(小目标时 <25% 计算量)
  4. HMoE 的 CPU 优化关键:token 重排 + C++ 批量矩阵运算使 MoE 在 CPU 上可用(延迟降低 56-85%)
  5. 模型在细线结构上表现优异:定性结果展示了在 20 次点击下对细长结构的精确分割

亮点与洞察

  1. 从交互式分割的迭代特性出发:利用上一步掩码的边界信息指导当前步的计算分配,自然而优雅
  2. BSQ 注意力的创新应用:首次将 BSQ 引入视觉注意力机制,解决了 VQ 注意力的两个根本缺陷
  3. 面向 CPU 的实际优化:不仅是理论上的加速,通过 C++ 扩展和 token 重排实现了真实 CPU 延迟降低
  4. 完整的动态计算系统:DPE/DHA/HMoE/DLU 四个模块从输入到输出贯彻动态分配理念

局限与展望

  • 2048 分辨率下 Online SPC 为 131ms,对实时标注仍有一定延迟
  • BSQA 使用固定 8 位码本,更大码本可能提升性能但增加开销
  • 边界检测基于简单的局部方差,可能不适用于极度模糊的边界
  • 未探索在 GPU 上的加速效果
  • HMoE 中仅选择 top-1 专家,多专家路由可能进一步提升边界区域的处理能力

相关工作与启发

  • SAM 和 InterFormer 的两阶段流水线是本工作的基础架构
  • Transformer-VQ 的线性注意力思想启发了 BSQA,但作者用 BSQ 替代 VQ 解决了码本坍塌和梯度问题
  • DeepSeek V3 的 MoE 设计(含无辅助损失的专家均衡策略)被直接采用于 HMoE
  • HRSAM 的编码器设计(Flash Swin + 多尺度融合)被继承

评分

  • 新颖性: ⭐⭐⭐⭐ — BSQ 注意力和边界引导的混合计算分配有显著创新
  • 技术深度: ⭐⭐⭐⭐⭐ — 四个模块各有技术深度,系统设计完整
  • 实用价值: ⭐⭐⭐⭐ — 对 CPU 环境下的高精度标注有直接应用价值
  • 写作质量: ⭐⭐⭐⭐ — 方法阐述清楚,效率分析详尽

相关论文