On the Generalization of Handwritten Text Recognition Models¶

会议: CVPR 2025
arXiv: 2411.17332
代码: https://github.com/carlos10garrido/HTR-OOD
领域: OCR/文本识别
关键词: 手写文本识别, 域泛化, 分布外泛化, 跨语言, 因子分析

一句话总结¶

本文首次系统性地分析了 HTR 模型在域外（OOD）数据上的泛化能力，通过对 8 个 SOTA 模型在 7 个数据集（5 种语言）上的 336 种 OOD 评估发现：文本差异是影响泛化的最关键因素，OOD 误差在 70% 的情况下可以被可靠预估（偏差 <10 个百分点）。

研究背景与动机¶

领域现状：手写文本识别（HTR）近年来在标准基准上取得了显著进步，主流方法包括 CTC 解码（CRNN、VAN）、序列到序列（Transformer）和混合方法（CTC+CE）。然而，这些进展建立在训练和测试数据同分布（i.i.d.）的假设上。

现有痛点：(1) 现有"泛化"评估仅限于同分布的训练-测试划分（同一手稿不同行），并非真正的跨域泛化；(2) 当模型面对全新手稿、不同语言、不同历史时期的文本时，性能急剧下降——初步实验显示 OOD 场景下 CER 平均从 ~7% 飙升到 ~35%；(3) Transfer Learning 和 Domain Adaptation 需要目标域数据，在完全未知的目标域上不适用。

核心矛盾：HTR 领域对"泛化"的定义过于狭隘，未探索真正的 OOD 泛化场景（零接触新手稿/新语言），且缺乏对影响 OOD 性能的关键因素的系统理解。

本文目标：(1) 在域泛化（DG）框架下分析 HTR 模型的 OOD 表现；(2) 识别影响泛化的核心因素；(3) 评估 OOD 误差是否可预估。

切入角度：构建 visual divergence 和 textual divergence 两个代理指标量化源域和目标域之间的差异，通过因子分析揭示影响 OOD 性能的显著因素。

核心 idea：通过大规模系统实验（8 模型 × 7 数据集 × 6 个 OOD 目标 = 336 种 OOD 评估），发现文本差异（语言/字母表差异）比视觉差异（书写风格）对泛化影响更大，且 OOD 误差可通过这些代理指标可靠预测。

方法详解¶

整体框架¶

实验分两部分：(1) 实践性分析——在标准化条件下评估 8 个 HTR 模型的 ID 和 OOD 性能，探讨模型容量、选择策略和合成数据对泛化的影响；(2) 因子分析——定义视觉差异和文本差异指标，进行多因素方差分析（ANOVA）确定影响 OOD 性能的显著因子，并基于这些因子构建 OOD 误差预测模型。

关键设计¶

标准化跨域评估框架:
- 功能：确保公平可比地评估不同 HTR 模型的 OOD 泛化能力
- 核心思路：8 个模型（CRNN、VAN、C-SAN、HTR-VT、Kang Transformer、Michael、LT、VLT）覆盖 CTC/Seq2Seq/Hybrid 三大类，在 7 个数据集（IAM/Rimes/Bentham/Saint-Gall/G.W./Rodrigo/ICFHR2016，跨英/法/拉丁/西/德 5 种语言）上从头训练，统一使用 Unicode 合并的 94 字符字母表。每个模型在一个源域训练后在其他所有域上 OOD 测试，共 336 种评估。
- 设计动机：以往研究使用不同的训练设置、不同的字母表处理方式，结果不可比。标准化后才能公平比较模型间的泛化差异，揭示架构本身对泛化的影响。
视觉差异与文本差异指标（Visual/Textual Divergence）:
- 功能：量化源域和目标域之间的视觉和语言层面差异
- 核心思路：视觉差异使用 FID（Fréchet Inception Distance）度量源域和目标域图像特征分布的距离。文本差异度量两域文本内容的语言差异——基于字母表重叠度和字符频率分布的 KL 散度。这两个指标直觉上应该与 OOD 性能下降程度正相关。
- 设计动机：OOD 性能下降可能来自视觉原因（字迹风格差异大）或文本原因（不同语言/字母表），区分两者的影响有助于针对性地改进模型。
因子分析与 OOD 误差预测:
- 功能：识别影响 OOD 泛化的显著因子并预测 OOD 误差
- 核心思路：以 OOD CER 为因变量，进行多因素方差分析（ANOVA），考察模型类型、源域、目标域、视觉差异、文本差异等因子的显著性。基于显著因子构建回归模型预测 OOD 误差。结果表明文本差异是最显著因子，其次是视觉差异。在 70% 的情况下，预测误差与实际误差的偏差不超过 10 个 CER 百分点。
- 设计动机：如果 OOD 误差可预测，部署 HTR 系统时就能预先评估模型在新数据上的可靠性，而不需要实际标注测试数据。

损失函数 / 训练策略¶

取决于模型架构——CTC 模型使用 CTC loss，Seq2Seq 使用 CE loss，Hybrid 使用 \(\mathcal{L} = \lambda \mathcal{L}_{\text{ctc}} + (1-\lambda) \mathcal{L}_{\text{ce}}\)（\(\lambda=0.5\)）。所有模型从头训练 500 epochs，基于验证集 CER 选择最佳模型，100 epoch 不改善则提前停止。

实验关键数据¶

主实验（ID vs OOD CER%，选取代表性模型）¶

数据集	CRNN ID	CRNN OOD	VAN ID	VAN OOD	HTR-VT ID	HTR-VT OOD
IAM (En)	6.4	34.9 (+28.5)	6.6	28.6 (+22.0)	5.8	33.7 (+27.9)
Rimes (Fr)	3.7	25.0 (+21.2)	5.6	21.3 (+15.6)	7.9	28.3 (+20.4)
Bentham (En)	4.7	25.3 (+20.6)	7.4	26.6 (+19.2)	8.4	33.3 (+24.9)
S.G. (Lat)	7.2	33.6 (+26.3)	7.8	39.8 (+32.0)	17.1	36.5 (+19.3)
Rodrigo (Sp)	4.1	36.5 (+32.4)	4.2	29.9 (+25.7)	5.1	34.2 (+29.1)

消融实验（因子分析 - ANOVA 结果）¶

因子	F-statistic	p-value	显著性
文本差异	最高	<0.01	极显著
视觉差异	中等	<0.01	显著
源域	中等	<0.01	显著
模型架构	较低	<0.05	弱显著

关键发现¶

ID-OOD gap 巨大：8 个模型平均 OOD CER 约 35%，比 ID 的 ~7% 高出约 28 个百分点，说明当前 HTR 模型完全缺乏 OOD 泛化能力。
文本差异是第一影响因子：当源域和目标域的语言/字母表差异大时，OOD 性能下降最严重。视觉差异（书写风格）是第二因子。
模型架构的影响相对较小：不存在一个在所有 OOD 场景下稳定最优的架构。CTC 模型（CRNN、VAN）在 OOD 上相对稳健，大参数量的 Transformer 模型反而容易过拟合。
合成数据有帮助但有限：合成数据作为源域训练可提升部分 OOD 场景的性能，但无法完全弥补域差距。
OOD 误差预测在 70% 的情况下偏差 <10 CER 点，为实际部署提供了可行的预评估方案。

亮点与洞察¶

首次系统揭示 HTR 的 OOD 泛化缺陷：336 种评估的大规模实验提供了可靠的统计结论，打破了"基准越来越好=问题已解决"的假象。
文本差异 > 视觉差异的发现意外但合理：HTR 模型本质上学习了语言模型（字符序列的统计规律），当目标域语言完全不同时，学到的语言先验完全失效。这提示改进方向应侧重于语言无关的视觉特征提取。
OOD 误差可预估的结论有实际价值：部署 HTR 时可根据源域和目标域的文本/视觉差异评估系统可靠性。

局限与展望¶

仅使用行级 HTR，未涉及端到端文档识别。
统一字母表为 94 字符，可能对某些语言特有字符处理不够精细。
未探索多源域训练和域泛化算法（如 DRO、IRM 等）对 HTR 的效果。
未来可以研究语言无关的 HTR 架构设计，以及大规模预训练和自监督学习对 OOD 泛化的影响。

评分¶

新颖性: ⭐⭐⭐⭐ 首次在 HTR 领域进行系统的 OOD 泛化分析，视角新颖
实验充分度: ⭐⭐⭐⭐⭐ 336 种评估、8 模型、7 数据集、5 语言，统计分析严谨
写作质量: ⭐⭐⭐⭐ 问题定义清晰，结论有说服力
价值: ⭐⭐⭐⭐ 揭示了 HTR 的关键盲点，为未来研究指明方向