TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning¶
日期: 2026-03-24
arXiv: 2603.22819
代码: 无
领域: 多模态VLM / 文档解析
关键词: table recognition, end-to-end, detail-aware learning, cell localization, HTML generation
一句话总结¶
TDATR 提出"感知-融合"两阶段端到端表格识别框架:先通过多任务语言建模联合感知表格结构和内容细节,再融合隐式表格细节生成结构化 HTML 输出,配合结构引导的单元格定位模块增强视觉-语言对齐,在有限数据下 7 个 benchmark 上取得 SOTA 或高度竞争力。
研究背景与动机¶
- 领域现状:表格识别(TR)是文档分析的基础任务。现有方法分两类:(a) 模块化流水线——分别做结构识别和内容识别,再拼接,集成复杂且误差累积;(b) 端到端方法——直接输出 HTML,但严重依赖大规模 TR 数据,数据受限时效果差。
- 现有痛点:(a) 模块化方法的结构和内容分别建模导致整合不佳;(b) 端到端方法在小数据场景下泛化差——不知道如何理解表格"细节"(行列结构、单元格合并、内容类型等)
- 核心矛盾:端到端的简洁性 vs 对表格细节的精确感知——直接生成 HTML 跳过了结构理解步骤
- 切入角度:先"感知细节"再"融合生成"——在生成 HTML 之前显式学习表格结构和内容的多种细节
- 核心 idea:"感知→融合"策略——先多任务学习感知表格细节(结构理解+内容识别),再融合隐式细节知识生成 HTML,用更少数据达到更好效果
方法详解¶
整体框架¶
表格图像 → 视觉编码 → 阶段1: 表格细节感知(多任务语言建模——结构理解任务 + 内容识别任务)→ 获得隐式表格细节表示 → 阶段2: 融合生成结构化 HTML → 结构引导的单元格定位(增强视觉对齐)。
关键设计¶
-
多任务表格细节感知
- 做什么:通过多个辅助任务在语言建模框架下联合学习表格结构和内容
- 任务设计:(a) 行/列数预测;(b) 单元格合并检测;(c) 单元格内容识别(OCR);(d) 表格类型分类
- 核心思路:所有任务统一为语言建模格式(Token 序列预测),共享编码器学习丰富的表格细节表示
- 设计动机:多任务学习自然利用不同来源的文档数据增强模型鲁棒性
-
隐式细节融合的 HTML 生成
- 做什么:将阶段1学到的隐式细节知识融入最终 HTML 生成
- 核心思路:阶段1的隐藏状态作为阶段2的条件输入,使 HTML 生成受结构理解的指导
- 设计动机:不是丢弃阶段1的中间表示,而是把它当作"先验知识"注入
-
结构引导的单元格定位模块
- 做什么:在端到端框架中高效定位每个单元格的视觉区域
- 核心思路:利用预测的表格结构(行列边界)指导单元格 bounding box 回归
- 设计动机:加强视觉 token 与特定单元格内容的对齐——减少"张冠李戴"(内容放错单元格)
训练细节¶
- 视觉编码器:Swin Transformer-Base
- 语言解码器:6 层 Transformer decoder
- 阶段1 多任务训练:行列数预测(回归头)+ 单元格合并检测(二分类头)+ OCR + 类型分类,统一为 token 序列预测
- 阶段2 融合训练:将阶段1 的隐层特征通过交叉注意力注入 HTML 解码器
- 训练数据:PubTabNet (568K) + FinTabNet (112K) + SciTSR + 其他小型数据集
- 无需针对每个测试集微调——单一模型评测全部 7 个 benchmark
实验关键数据¶
主实验(7 个 Benchmark,无特定数据集微调)¶
| 方法 | PubTabNet | FinTabNet | SciTSR | 其他 | 训练数据量 |
|---|---|---|---|---|---|
| TableFormer | 中 | 中 | 中 | 中 | 大 |
| UniCell | 好 | 好 | 好 | 好 | 大 |
| TDATR | SOTA/竞争力 | SOTA/竞争力 | SOTA | 好 | 更少 |
消融实验¶
| 配置 | TEDS | 说明 |
|---|---|---|
| 直接端到端(无细节感知) | 基准 | 小数据下差 |
| + 表格细节感知(多任务) | +3-5% | 细节理解提升 |
| + 隐式细节融合 | +2% | 知识传递有效 |
| + 单元格定位对齐 | +1-2% | 减少内容错配 |
关键发现¶
- "感知→融合"策略在数据受限场景下优势最大——细节感知任务利用了更多元的数据源
- 多任务辅助学习的贡献在复杂表格(多合并单元格、嵌套结构)上更显著
- 单元格定位模块提升了可解释性——可以可视化每个输出单元格对应的图像区域
- 无需针对每个数据集微调即可在 7 个 benchmark 上表现良好——泛化性强
- 在 FinTabNet(金融表格,结构复杂)上改善最大,在 SciTSR(学术表格,结构规整)上也有稳定提升
- 隐式细节融合比显式拼接更有效——交叉注意力让 HTML 解码器自适应地选择需要的细节信息
亮点与洞察¶
- "先理解再生成"的分阶段策略:不是一步到位直接生成 HTML,而是先多任务学透表格细节再生成——对信息密集的结构化文档尤其重要
- 语言建模统一多任务:将结构理解和内容识别都转化为 token 预测,框架统一且易扩展
- 单元格定位提升可解释性:知道模型"看了哪里"有助于调试和信任建立
局限性 / 可改进方向¶
- 两阶段训练增加了复杂度,需分别调参
- 对极度不规则表格(如infographic式表格)的处理待验证
- 单元格定位精度依赖结构预测质量
相关工作与启发¶
- vs TableFormer: TableFormer 端到端但无细节感知,TDATR 通过多任务学习增强了结构理解
- vs UniCell: UniCell 统一方法但需大量数据,TDATR 在少数据下更优
- vs GOT/Nougat: 这些通用文档 OCR 模型在表格上表现一般——表格的结构化特性需要专门处理
评分¶
- 新颖性: ⭐⭐⭐⭐ "感知→融合"的两阶段设计有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个benchmark + 无微调泛化 + 消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 对文档理解和端到端表格识别有实际推动