Multi-Modal Character Localization and Extraction for Chinese Text Recognition¶

日期: 2026-03-14
arXiv: 2603.13886
代码: LER
领域: 多模态VLM / 文字识别
关键词: Chinese text recognition, CLIP, character decoupling, radical decomposition, parallel decoding

一句话总结¶

提出 LER（Localization-Extraction-Recognition）框架，通过 CLIP 多模态信息辅助字符定位 + 显式字符特征解耦 + 部首感知 IDS 解码器，解决中文场景文字识别中的误差累积和注意力漂移问题，在 CTR benchmark 上以 81.47% 平均 LACC 达到 SOTA。

研究背景与动机¶

领域现状: STR 方法在英文上表现优秀，但直接应用到中文准确率骤降 — ABINet 在中文场景仅 70.28%，CRNN 仅 64.47%。中文有 27533 个字符（GB 18030-2000 标准），其中一级常用字 3755 个。每个汉字由偏旁部首按空间结构组合而成（如左右结构、上下结构等 10 种），内部复杂度远超英文 26 字母。
现有痛点:
- 自回归解码器有误差累积问题 — 一个字符错误导致后续连锁错误，NED 指标能量化这种累积程度
- 并行解码器的位置查询相似度高导致注意力漂移，相邻字符的 attention map 重叠
- 语言模型后处理在无意义文本或错别字文本上会错误纠正原本正确的内容（如将 "soap" 纠正为 "soar"）
核心 idea: 显式解耦每个字符特征后独立识别，从根本上避免误差累积和自动纠错；用 CLIP 的图文对齐能力增强字符定位精度，用 IDS 部首解码器在训练阶段约束解耦质量。

方法详解¶

整体框架¶

CNN 编码器（6 个 conv mix block）→ 多模态定位模块（N=6 级级联 MLB）→ 提取模块（M=3 层 char cutter）→ 识别模块（字符分类器 + IDS 部首解码器辅助训练）。输入中文图像 32×320，英文 32×100，最大序列长度 L=25。

关键设计¶

多模态定位模块（MLB）: N 级级联结构。第一级用 CLIP 文本特征（冻结 CLIP 编码器，对 "a character of Chinese" 等内容无关 prompt 编码聚合）作为初始查询 \(T^1\)，后续级 \(T^i\) 使用前一级预测嵌入+语言信息。核心操作：先 cross-attention 将文本查询与视觉特征对齐，再 Masked Multi-head Self-Attention 利用语言上下文辅助精确定位，逐级细化抑制注意力漂移。输出定位特征 \(A \in R^{L \times H/4 \times W/4 \times D_1}\)。
字符提取模块（Char Cutter）: 定义字符区域大小 \((c_h, c_w)=(4,4)\)（中文），用 char prompt 通过 M=3 层 cross-attention 从定位特征中提取独立字符特征 \(F \in R^{L \times c_h \times c_w \times D}\)。实验表明方形字符尺寸更适合方块汉字，M=3 是精度与复杂度的最优平衡。
IDS 部首解码器（仅训练时使用）: 预测字符的 IDS 分解序列（10 种空间结构 + 562 种部首），约束提取模块学得包含完整部首的字符特征。例如 "语" 需分解为 ⿰讠+五+口的部首序列，只有解耦出完整字符区域才能正确预测。推理时丢弃，不增加推理开销。

训练策略¶

两阶段训练：Stage 1 仅训练编码器+定位模块（中文 100 epoch，英文 20 epoch）；Stage 2 联合训练所有模块（中文 30 epoch，英文 15 epoch），损失 \(L = L_{char} + L_{ids} + L_{loc}\)。消融实验显示两阶段策略比端到端训练 LACC 高 2.93%（59.29 vs 56.36）。

实验关键数据¶

主实验（CTR Benchmark，LACC / NED）¶

方法	场景	网页	文档	手写	平均	Params
ABINet	66.55/0.792	63.17/0.776	98.19/0.996	53.09/0.813	70.28/0.844	53.1M
CCR-CLIP	71.31/0.829	69.21/0.797	98.29/0.997	60.30/0.849	74.78/0.868	62.0M
SMTR	79.8/–	80.6/–	99.1/–	61.9/–	80.33/–	20.8M
LER-B	81.36/0.906	80.81/0.902	99.33/0.999	64.38/0.910	81.47/0.929	25.2M

消融实验（手写场景 LACC/NED）¶

仅定位模块（无 CLIP）: 56.53/0.847 → 加 CLIP: 57.22/0.850（+0.69%）
加提取模块: 57.34/0.851 → 加字符解码器: 57.75/0.855 → 加 IDS 解码器: 59.29/0.871（+2.76%）
模型缩放：LER-S (16.4M) 57.31% → LER-B (25.2M) 59.29% → LER-L (32.1M) 60.34%
Char cutter 深度：M=1 (58.40%) → M=3 (59.29%) → M=6 (59.32%)，M=3 后收益饱和
字符区域尺寸：方形 (4,4) 优于矩形 (4,3)/(3,3)，符合汉字方块特性
训练策略：两阶段 59.29% vs 端到端 56.36%，先稳定定位再联合训练至关重要

关键发现¶

比 SMTR SOTA 平均提升 1.14%（81.47 vs 80.33），手写场景提升 2.48%（64.38 vs 61.9）
参数量 25.2M 仅为 ABINet (53.1M) 的一半，却高出 11.19% 平均 LACC
在英文六大基准和 Union14M benchmark 上取得有竞争力的结果，验证框架通用性
IDS 解码器贡献最大的单模块增益（+1.54% LACC），部首结构约束对中文字符解耦至关重要
NED 指标一致较高（0.929 vs SMTR 未报告），证实误差累积被有效抑制
可视化显示定位模块在长文本序列中也无注意力漂移，各字符注意力区域精准分离

亮点与洞察¶

CLIP 辅助定位是巧妙的跨模态知识迁移 — 用冻结的 CLIP 文本编码器提供与内容无关的初始查询，利用预训练图文对齐能力来增强字符定位，比纯位置编码更具判别性
IDS 解码器仅训练时使用的设计很实用 — 部首级监督信号显著提升提取质量（+1.54%），推理时零额外开销。这种“训练时加约束、推理时去掉”的范式值得借鉴
显式解耦 vs 隐式编码的架构选择 — 完整 LER 比仅用定位模块预测高 2.07%，证明独立识别确实避免了误差传播
两阶段训练不可或缺 — 先保证定位准确再训练下游模块，端到端训练会因早期定位不准而不稳定，差距 2.93%
错误分析显示 AR 解码器在无意义文本和英文场景中容易“词典依赖” — 如将 "soap" 识别为 "soar"，LER 显式解耦彻底解决了这个问题

局限性 / 可改进方向¶

最大序列长度 L=25，超长文本行（中文手写常见）可能截断
CLIP 文本 prompt 设计是启发式的（"a character of Chinese"），可探索 learnable prompt 或 context optimization
英文场景 IDS 解码器无效（英文无部首概念），跨语言泛化需要替代的结构约束（如字母组合规则）
推理时间主要瓶颈在定位模块处理大特征图，轻量化定位值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 显式字符解耦 + CLIP 多模态定位 + IDS 部首约束的三重组合新颖
实验充分度: ⭐⭐⭐⭐ 中英文双语评估，六组消融实验覆盖各模块
写作质量: ⭐⭐⭐⭐ 技术描述清晰，可视化分析充分
价值: ⭐⭐⭐⭐ 为中文 STR 提供了有效的专用方案，手写场景提升显著