MSTAR: Box-Free Multi-Query Scene Text Retrieval with Attention Recycling¶
会议: NeurIPS 2025
arXiv: 2506.10609
代码: GitHub
领域: 目标检测 / 场景文本检索
关键词: 场景文本检索, 无框注释, 多查询检索, 注意力回收, 视觉语言模型
一句话总结¶
提出 MSTAR,首个无需边界框标注的多查询场景文本检索方法,通过渐进式视觉嵌入(PVE)逐步将注意力从显著区域转移到不显著区域,结合风格感知指令和多实例匹配模块,实现了对单词、短语、组合和语义四种查询类型的统一检索,并构建了首个多查询文本检索基准 MQTR。
研究背景与动机¶
领域现状:场景文本检索(Scene Text Retrieval)旨在根据查询从图像集中搜索包含相关文本的图像,在签名检索、关键帧提取等领域有广泛应用。近年来在准确文本定位的辅助下取得了显著进展。
现有痛点:(1) 现有方法通常需要昂贵的边界框标注用于训练(word级、text-line级等多种标注),成本高昂;(2) 大多数方法采用定制化检索策略,难以统一处理多种查询类型(单词、短语、组合、语义查询)。
核心矛盾:视觉语言模型(VLM)在大规模无框预训练中表现强大,但倾向于关注显著视觉概念而忽略细粒度的场景文本实例(如图像中的小字)。
本文目标:实现无边界框监督的场景文本检索,同时统一多种查询类型。
切入角度:利用 VLM 的注意力机制,通过注意力回收(Attention Recycling)逐步从高注意力区域转移到被忽视的区域。
核心 idea:通过渐进式遮蔽高注意力区域迫使模型关注不显著文本,并通过风格指令统一多种查询类型。
方法详解¶
整体框架¶
MSTAR 基于 BLIP-2 构建,由四个核心组件组成:视觉编码器 \(\phi\)(SigLIP ViT-Base-512)、渐进式视觉嵌入(PVE)、多模态编码器 \(\psi\)(BLIP-2)和多实例匹配模块(MIM)。训练时使用对比学习和图文匹配损失联合优化;推理时先通过余弦相似度初步排序,再对 top K 图像进行重排序。
关键设计¶
-
Progressive Vision Embedding (PVE):
- 功能:渐进式提取视觉嵌入,将注意力从显著区域转移到不显著的细节文本区域
- 为什么:VLM 倾向于关注显著视觉元素(如红色圆圈),容易忽略细小场景文本,导致小文本检索漏检率高
- 怎么做:
- 视觉编码器提取初始图像特征 \(f_0\),通过多模态编码器生成初始视觉嵌入 \(E_V^0\)
- Salient Attention Shift(SAS)模块从交叉注意力权重中计算注意力图 \(C_{t-1}\),二值化后取反得到掩码 \(M_{t-1} = 1 - \sigma(C_{t-1})\)
- 掩码注意力层迫使自注意力降低已高关注区域的权重,聚焦被忽视区域
- 迭代 T 步后拼接所有嵌入 \(E_V \in \mathbb{R}^{(T+1)Q \times d}\)
- 区别:不同于需要 GT 监督的掩码方法,SAS 的掩码完全从模型自身的交叉注意力中导出
-
Style-Aware Instruction:
- 功能:通过短文本指令引导多模态编码器区分不同查询风格
- 为什么:统一训练多种查询类型(单词/短语/组合/语义)时,格式和语义差异会造成表征不一致
- 怎么做:\(E_T = \psi(\text{Concat}[T_i, T_Q])\),其中 \(T_i\) 为风格指令,\(T_Q\) 为文本查询。为加速训练,同一图像的所有查询一起编码
- 区别:无需为每种查询类型设计独立模型或分支
-
Multi-Instance Matching (MIM):
- 功能:显式建立视觉嵌入和文本嵌入之间的一对一匹配关系
- 为什么:传统的嵌入聚合或晚期交互策略需要大量训练才能实现视觉-语言对齐
- 怎么做:两个并行分支:
- 单词分支:使用匈牙利匹配算法在 \(E_w\) 和 \(E_V\) 之间建立一对一对应
- 多词分支:通过轻量交叉注意力层在文本约束下聚合视觉特征 \(E_{vt} = \mathcal{F}(\mathcal{C}(\mathcal{Q}=E_w, \mathcal{K,V}=E_V))\)
损失函数 / 训练策略¶
- 对比损失 \(\mathcal{L}_c = \alpha \mathcal{L}_{t2v} + \mathcal{L}_{v2t}\),\(\alpha=1.5\)
- 图文匹配损失 \(\mathcal{L}_m\)(交叉熵)
- 总损失 \(\mathcal{L} = \mathcal{L}_c + \mathcal{L}_m\)
- 多阶段训练:分辨率从 \(512 \to 640 \to 800\) 渐进增大
- 重排序Top 2%图像
实验关键数据¶
主实验¶
MQTR 多查询检索 MAP%:
| 方法 | 类型 | AVG | Word | Phrase | Combined | Semantic |
|---|---|---|---|---|---|---|
| TDSL | Box-Based | 58.25 | 69.11 | 40.83 | 72.71 | 50.36 |
| TG-Bridge | Box-Based | 54.09 | 69.89 | 30.21 | 75.53 | 40.73 |
| BLIP-2 (FT) | Box-Free | 58.11 | 58.09 | 42.23 | 60.84 | 71.24 |
| MSTAR | Box-Free | 66.78 | 73.27 | 44.22 | 74.48 | 75.14 |
MSTAR 平均 MAP 超越先前最优方法 8.53%。
6个公开数据集词级检索 MAP%:
| 方法 | SVT | STR | CTR | Total-Text | CTW | IC15 | Avg |
|---|---|---|---|---|---|---|---|
| TDSL | 89.38 | 77.09 | 66.45 | 74.75 | 59.34 | 77.67 | 74.16 |
| FDP-RN50×16 | 89.63 | 89.46 | - | 79.18 | - | - | - |
| MSTAR | 91.31 | 86.25 | 60.13 | 85.55 | 90.87 | 81.21 | 82.56 |
| MSTAR (+re-rank) | 91.11 | 86.14 | 65.25 | 86.96 | 92.95 | 82.69 | 84.18 |
MSTAR 在不使用边界框标注的情况下,平均 MAP 超越 TDSL 8.40%,在 Total-Text 上超越 FDP 6.37%。
消融实验¶
| Ins | MIM | PVE | CTR | SVT | STR | Total-Text | CTW | IC15 | MQTR |
|---|---|---|---|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 52.87 | 90.07 | 81.57 | 82.32 | 87.28 | 76.71 | 65.79 |
| ✓ | ✗ | ✗ | 54.65 | 90.70 | 82.81 | 83.19 | 88.96 | 77.15 | 66.15 |
| ✓ | ✓ | ✗ | 55.77 | 91.02 | 85.00 | 84.01 | 90.31 | 79.23 | 65.69 |
| ✓ | ✓ | ✓ | 60.13 | 91.31 | 86.25 | 85.55 | 90.87 | 81.21 | 66.78 |
- PVE 对小文本场景效果最显著:CTR 提升 4.36%,IC15 提升 1.98%
- MIM 显著提升字级检索:STR +2.19%,CTW +1.35%
关键发现¶
- 无框方法 MSTAR 可以与全监督文本定位方法(TG-Bridge)达到竞争性性能,且推理速度快一倍(14.2 FPS vs 6.7 FPS)
- PVE 的注意力回收机制有效解决了 VLM 忽略小文本的问题
- 在短语检索数据集上达到 95.71% MAP
亮点与洞察¶
- 范式创新:首个无框场景文本检索方法,证明了无需昂贵的边界框标注也能达到甚至超越有框方法
- 统一多查询:通过风格指令实现四种查询类型的统一处理,避免为每种类型训练独立模型
- 注意力回收的优雅设计:利用模型自身的注意力图来引导注意力转移,无需额外监督
- MQTR 基准贡献:首个多查询场景文本检索基准,填补了评测空白
- 实际推理速度具有优势:无需文本检测模块
局限与展望¶
- 在 CTR 数据集(极小文本)上仍不及基于框的方法 TDSL,这是无框方法的固有限制
- 匈牙利匹配在处理复杂组合查询时在 MQTR 上产生了轻微的性能下降
- 对中文场景文本的支持和评估不够充分
- PVE 的迭代步数 T 是超参数,不同场景可能需要不同设置
相关工作与启发¶
- BLIP-2 (li2023blip):基础架构,提供预训练的多模态编码器
- SigLIP (zhai2023sigmoid):视觉编码器初始化
- FDP (zeng2024focus):先前 SOTA,利用 CLIP 加框监督进行文本区域定位
- TDSL (wang2021scene):经典端到端场景文本检索方法
- 启发:VLM 的注意力偏向性是一个系统性问题,注意力回收是一种通用的解决思路,可推广到其他细粒度检索任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个无框多查询文本检索,PVE注意力回收设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 7个公开数据集+自建MQTR基准,消融全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述有说服力
- 价值: ⭐⭐⭐⭐ 显著降低标注成本,MQTR基准对社区有贡献
相关论文¶
- [ECCV 2024] Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
- [ACL 2026] TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval
- [NeurIPS 2025] DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding
- [NeurIPS 2025] InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention
- [NeurIPS 2025] Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension