WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting¶

会议: ECCV 2024
arXiv: 2407.19507
代码: 有 (https://github.com/ZhengyaoFang/WeCromCL)
领域: 目标检测 (文字检测与识别)
关键词: 文字检测, 弱监督学习, 跨模态对比学习, 转录监督, 场景文字识别

一句话总结¶

提出 WeCromCL 框架，通过弱监督的原子级跨模态对比学习，仅利用文本转录标注（无位置标注）实现场景文字定位，将检测到的锚点作为伪标签训练单点监督文字检测器，在无边界标注的条件下达到接近全监督的性能。

研究背景与动机¶

场景文字检测（Text Spotting）通常需要精确的文字边界标注（多边形/矩形标注），标注成本极高。仅转录监督（Transcription-only Supervision）是一种极具吸引力的替代方案——只需文字内容标注，无需位置标注。

现有仅转录监督方法的局限：

NPTS：将文字检测建模为序列预测任务，拼接所有文字实例为一个序列进行自回归预测。但由于文字实例间无预定义顺序，模型需拟合所有排列组合，导致训练收敛极其困难，"需要大量计算资源"

TOSS：借鉴 DETR 用预学习查询定位文字，但 DETR 原设计依赖位置监督，缺少位置标注时效果受限

本文的核心洞察：将仅转录监督的文字检测分解为两阶段——先通过弱监督跨模态对比学习定位锚点，再用锚点做伪标签训练单点监督检测器。

方法详解¶

整体框架¶

WeCromCL 采用两阶段流水线：

阶段一：弱监督锚点检测 - 输入：场景图像 + 文本转录（无位置标注） - 输出：每个转录在图像中的锚点位置 - 方法：原子级跨模态对比学习

阶段二：锚点引导的文字检测 - 输入：图像 + 锚点伪标签 - 输出：文字检测与识别结果 - 方法：基于 SPTS 或改编的 SRSTS v2 单点检测器

关键设计¶

原子级对比学习 vs. 整体级对比学习：

维度	整体级（如 CLIP/oCLIP）	原子级（WeCromCL）
目标	图像-文本的全局语义相关性	转录与图像局部区域的字符级外观一致性
粒度	整张图像 vs. 整段文本	像素级激活图 vs. 逐字符匹配
定位能力	无法精确定位	可通过激活图峰值定位锚点

字符级文本编码器（Character-Wise Text Encoder）：

为字母表中每个字符学习独立的向量嵌入 \(\mathbf{E} \in \mathbb{R}^{|\Sigma| \times C}\)
学习位置嵌入 \(\mathbf{P} \in \mathbb{R}^{L \times C}\) 保留字符的时序信息
融合后通过 Transformer Encoder 建模字符间关系
最终对所有字符取均值得到文本表示 \(\mathbf{F}_T \in \mathbb{R}^C\)

软建模激活图：

通过跨模态交叉注意力计算激活图——文本表示作为 query，图像各像素特征作为 key/value：

\[\mathbf{M}_{(i,j)} = (\mathbf{W}_T^\top \mathbf{F}_T) \cdot (\mathbf{W}_I^\top \mathbf{F}_{I,(i,j)})\]

经 softmax 归一化后，峰值位置即为锚点。激活图进一步用于聚合图像中与转录对应的视觉特征。

负样本挖掘：

随机选取不配对转录构造更多负样本对，通过增加图像到文本方向的负样本数量 \(N_{\text{aug}}\) 提升判别能力，开销几乎可忽略。

损失函数 / 训练策略¶

对比学习损失包含两个方向：

文本到图像方向：

\[\mathcal{L}_i^{T2I} = -\log\frac{\exp(\text{Cosine}(\mathbf{F}_{I_i,T_i}^c, \mathbf{F}_{T_i})/\tau)}{\sum_{j=0}^{N-1}\exp(\text{Cosine}(\mathbf{F}_{I_j,T_i}^c, \mathbf{F}_{T_i})/\tau)}\]

图像到文本方向（含负样本挖掘）：

\[\mathcal{L}_i^{I2T} = -\log\frac{\exp(\text{Cosine}(\mathbf{F}_{I_i,T_i}^c, \mathbf{F}_{T_i})/\tau)}{\sum_{j=0}^{N+N_{\text{aug}}-1}\exp(\text{Cosine}(\mathbf{F}_{I_i,T_j}^c, \mathbf{F}_{T_j})/\tau)}\]

最终损失为两个方向的平均。

实验关键数据¶

主实验（表格）¶

WeCromCL 锚点检测性能（F-measure，单点度量）：

数据集	训练集	测试集
ICDAR 2013	93.2	90.5
ICDAR 2015	88.6	83.4
Total-Text	84.3	80.3
CTW1500	66.3	77.7

WeCromCL + SPTS vs. NPTS（编辑距离度量）：

方法	ICDAR2015 S	W	G	Total-Text None	Full
NPTS	70.3	62.7	57.0	61.6	70.6
WeCromCL + SPTS	71.8	64.7	59.7	63.2	70.7

消融实验（表格）¶

字符级 vs. 词级文本编码器（测试集 F-measure）：

编码器类型	IC13	IC15	Total-Text	CTW1500
Token-wise (CLIP)	78.6	64.4	64.9	65.5
Character-wise	90.5	83.4	80.3	77.7

WeCromCL vs. oCLIP（测试集 F-measure）：

方法	IC13	IC15	Total-Text	CTW1500
oCLIP (整体对比)	72.5	41.7	42.8	45.9
WeCromCL (原子对比)	90.5	83.4	80.3	77.7

关键发现¶

字符级编码器比词级编码器在所有数据集上提升超过10个F1点，证明文字检测是外观匹配而非语义匹配
原子级对比学习（WeCromCL）大幅超越整体级对比学习（oCLIP），CTW1500上差距达31.8%
负样本挖掘使CTW1500测试集F-measure提升10.2%
WeCromCL 生成的伪标签可增强全监督检测器，在标注数据不足时效果尤为显著

亮点与洞察¶

问题分解思路精妙：将困难的仅转录监督问题拆为两个可解子问题（弱监督定位 + 单点监督检测），大幅降低优化难度
原子级对比学习的提出：不同于CLIP等模型关注语义相关性，WeCromCL学习的是字符级视觉外观一致性，这是文字检测任务的本质需求
聚类中心的类比：转录作为聚类中心关联所有包含它的图像，模型在大量图像中学到该转录的共性外观模式——非常直觉的解释
低成本负样本增强：仅增加文本侧负样本（计算几乎为零），即可获得显著性能提升

局限与展望¶

两阶段流水线导致锚点定位误差会传播到检测阶段，可探索端到端的联合优化
当多个相同转录出现在同一图像时，激活图可能产生歧义
字符级编码对非拉丁字母语言（如中文字符）的适用性有待验证
尚未与最新的大规模视觉-语言模型（如 SAM + OCR 结合方案）进行对比

评分¶

维度	分数 (1-5)
新颖性	4
技术深度	4
实验充分性	5
写作质量	4
实用价值	4
综合	4.2