Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation¶
会议: ICCV 2025
arXiv: 2507.09612
代码: Inter2Former
领域: 交互式分割
关键词: 交互式分割, 高精度分割, 混合注意力, BSQ 注意力, 动态计算分配
一句话总结¶
提出 Inter2Former,通过动态混合注意力(DHA)将边界 token 路由到全注意力、非边界 token 路由到线性复杂度的 BSQ 注意力,配合动态提示嵌入(DPE)、混合专家(HMoE)和动态局部上采样(DLU),在 CPU 设备上实现高精度交互式分割的 SOTA 性能与高效推理。
研究背景与动机¶
交互式分割(IS)通过用户点击等提示分割目标区域,广泛应用于医学影像标注、工业缺陷检测等场景。当前方法面临关键权衡:
Dense-token 方法(如 InterFormer):将点击编码为密集提示 token,空间感知能力强,分割精度高,但计算量大,在 CPU 上推理极慢(每步 >1 秒)
Sparse-token 方法(如 SAM):使用稀疏提示 token 进行高效交叉注意力,推理快,但牺牲了空间感知和边界精度
核心矛盾:密集 token 的精度 vs 稀疏 token 的效率,如何兼得?
关键洞察:dense-token 方法效率低的根源在于计算资源分配不合理: - 交互式分割中,主要对象通常在前几次点击后已确定,后续点击主要聚焦于边界细化 - 现有模型对所有 token 均匀分配计算,浪费了大量计算在已确定的对象主体区域 - 每一步的分割结果包含边界线索,但现有方法仅将其作为输入特征而未充分利用于计算优化
方法详解¶
整体框架¶
Inter2Former 采用编码器-解码器两阶段流水线: - 编码器:HRSAM 的 Flash Swin(预处理阶段,仅执行一次) - 解码器(交互阶段):DPE → DHA + HMoE(×2 层)→ DLU
四大核心模块均围绕"动态计算分配"的理念设计。
关键设计¶
1. 动态提示嵌入(DPE)¶
传统方法对整个图像的参考掩码做卷积编码,DPE 仅处理感兴趣区域:
- 检测包含所有点击区域和前景预测的边界框 \(\mathcal{B}\)
- 仅在该局部区域内做可学习嵌入 + 4 层 stride-2 卷积下采样
- 局部特征 \(\mathbf{F}_\mathcal{B}\) 拼接在可学习背景嵌入 \(\mathbf{e}_{bg}\) 构成的全局图中
效果:小目标时仅需 <25% 的计算量;保持全局上下文通过背景嵌入。
2. 动态混合注意力(DHA)¶
核心创新——利用上一步分割掩码的边界信息路由 token:
边界检测: $\(\mathbf{E}_{k-1} = \text{Pool}\left(\mathbb{1}\{\text{Conv}(\mathbf{M}_{k-1}^2) - \text{Conv}(\mathbf{M}_{k-1})^2 > 0\}\right)\)$
通过 7×7 均匀卷积估计局部方差,非零方差区域即为边界。
路由策略: - 边界 token \(\mathbf{Q}_{FA}\)(少数)→ 标准全注意力 \(O(N^2)\),获取全局上下文 - 非边界 token \(\mathbf{Q}_{BSQ}\)(多数)→ BSQ 注意力 \(O(N)\),线性复杂度
两组共享同一份 Key-Value 矩阵 \((\mathbf{K}, \mathbf{V})\)。
3. BSQ 注意力(BSQA)¶
受 Transformer-VQ 启发,但用 Binary Spherical Quantization 替代传统 VQ:
VQ 注意力的问题: - 码本利用率低(只使用少数码本向量) - STE 梯度近似误差不可控
BSQ 方案: 1. 将 Key 映射到低维空间:\(\mathbf{B} = \mathbf{K}\mathbf{W}_{BSQ} \in \mathbb{R}^{N \times S}\) 2. 投影到单位超球面:\(\mathbf{U} = \mathbf{B}/\|\mathbf{B}\|_2\) 3. 二值量化:\(\hat{\mathbf{U}} = \text{sign}(\mathbf{U})/\sqrt{S}\) 4. 通过可学习基向量 \(\mathbf{C}_{base}^0, \mathbf{C}_{base}^1\) 重建量化 Key
S 位二值编码 → \(2^S\) 种码本向量,天然避免了码本坍塌。量化误差有理论上界且训练中接近零,保证了精确的梯度估计。
复杂度:\(O(NS) = O(N)\)(S 为固定位数,默认 8 位)。
4. 混合专家(HMoE)¶
FFN 层采用类似 DHA 的混合策略: - 非边界 token → 仅通过共享专家 \(\text{FFN}_M\) - 边界 token → 路由到最佳专家 \(\text{FFN}_{a_t}\) + 共享专家,加权求和
CPU 优化:通过 token 重排将属于同一专家的 token 聚合为连续内存块,使用 C++ 扩展进行批量矩阵运算,实现 56-85% 的延迟降低。
5. 动态局部上采样(DLU)¶
DPE 的逆操作: - 定位分支:轻量 MLP 生成低分辨率掩码 → 检测对象边界框 - 精化分支:仅在检测区域内做边缘引导上采样(CannyNet 提取边缘特征 + 4 层反卷积 + 特征融合)
损失函数 / 训练策略¶
- BSQA 训练:训练时用量化 Key 做标准全注意力计算(鼓励量化逼近标准注意力);推理时切换到线性复杂度计算
- DLU 训练:同时监督低分辨率和高分辨率掩码输出
- 损失函数:NFL(Normalized Focal Loss),交互式分割标准损失
- 编码器初始化:MAE 预训练或 SAM 蒸馏
实验关键数据¶
主实验(高精度 IS 基准)¶
| 模型 | CPU 时间 (20-SPC/Online ms) | HQSeg44K 5-mIoU | HQSeg44K NoC90 | DAVIS 5-mIoU | DAVIS NoC95 |
|---|---|---|---|---|---|
| InterFormer-ViT-B | 1020/188 | 82.62 | 7.17 | 87.79 | 11.88 |
| SegNext(×2)-ViT-B | 1519/1400 | 91.75 | 5.32 | 91.87 | 10.73 |
| HRSAM++-ViT-B 2048 | 273/105 | 91.50 | 5.41 | 90.79 | 10.84 |
| HQ-SAM-ViT-B | 167/54 | 89.85 | 6.49 | 91.77 | 10.00 |
| Inter2Former 2048 | 300/131 | 92.68 | 4.24 | 92.00 | 7.82 |
Inter2Former 在所有指标上达到 SOTA,且推理速度与 HRSAM++ 相当(Online SPC 131ms vs 105ms),远快于 SegNext(131ms vs 1400ms)。
消融实验¶
| 配置 | HQSeg44K 5-mIoU | HQSeg44K NoC90 | DAVIS 5-mIoU | DAVIS NoC95 |
|---|---|---|---|---|
| Inter2Former-Base | 92.68 | 4.24 | 92.00 | 7.82 |
| DHA → All FA | 92.61 | 4.24 | 92.26 | 7.78 |
| DHA → All BSQA | 90.12 | 5.64 | 89.31 | 9.75 |
| BSQA → VQA | 91.07 | 4.82 | 90.31 | 8.86 |
| DPE → Non-DPE | 92.86 | 4.19 | 92.17 | 7.94 |
| DLU → Non-DLU | 92.76 | 4.22 | 92.13 | 7.90 |
- DHA 性能接近 All FA但远快;All BSQA 性能显著下降 → 验证了混合策略的必要性
- BSQA 明显优于 VQA → BSQ 量化优于传统 VQ
- DPE/DLU 对性能影响极小但大幅降低延迟 → 有效的效率优化
关键发现¶
- 边界/非边界混合计算是最优解:全用全注意力慢但无性能增益;全用 BSQA 快但掉 2.5+ 点
- BSQ 量化优于 VQ:VQA 因码本利用率低和梯度近似误差导致性能下降 1.5+ 点
- DPE/DLU 实现"免费午餐":性能几乎无损但显著降低延迟(小目标时 <25% 计算量)
- HMoE 的 CPU 优化关键:token 重排 + C++ 批量矩阵运算使 MoE 在 CPU 上可用(延迟降低 56-85%)
- 模型在细线结构上表现优异:定性结果展示了在 20 次点击下对细长结构的精确分割
亮点与洞察¶
- 从交互式分割的迭代特性出发:利用上一步掩码的边界信息指导当前步的计算分配,自然而优雅
- BSQ 注意力的创新应用:首次将 BSQ 引入视觉注意力机制,解决了 VQ 注意力的两个根本缺陷
- 面向 CPU 的实际优化:不仅是理论上的加速,通过 C++ 扩展和 token 重排实现了真实 CPU 延迟降低
- 完整的动态计算系统:DPE/DHA/HMoE/DLU 四个模块从输入到输出贯彻动态分配理念
局限与展望¶
- 2048 分辨率下 Online SPC 为 131ms,对实时标注仍有一定延迟
- BSQA 使用固定 8 位码本,更大码本可能提升性能但增加开销
- 边界检测基于简单的局部方差,可能不适用于极度模糊的边界
- 未探索在 GPU 上的加速效果
- HMoE 中仅选择 top-1 专家,多专家路由可能进一步提升边界区域的处理能力
相关工作与启发¶
- SAM 和 InterFormer 的两阶段流水线是本工作的基础架构
- Transformer-VQ 的线性注意力思想启发了 BSQA,但作者用 BSQ 替代 VQ 解决了码本坍塌和梯度问题
- DeepSeek V3 的 MoE 设计(含无辅助损失的专家均衡策略)被直接采用于 HMoE
- HRSAM 的编码器设计(Flash Swin + 多尺度融合)被继承
评分¶
- 新颖性: ⭐⭐⭐⭐ — BSQ 注意力和边界引导的混合计算分配有显著创新
- 技术深度: ⭐⭐⭐⭐⭐ — 四个模块各有技术深度,系统设计完整
- 实用价值: ⭐⭐⭐⭐ — 对 CPU 环境下的高精度标注有直接应用价值
- 写作质量: ⭐⭐⭐⭐ — 方法阐述清楚,效率分析详尽
相关论文¶
- [ICCV 2025] Hybrid-TTA: Continual Test-time Adaptation via Dynamic Domain Shift Detection
- [CVPR 2025] ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object
- [ICCV 2025] TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
- [ICCV 2025] Dynamic Dictionary Learning for Remote Sensing Image Segmentation
- [ICCV 2025] A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions