跳转至

TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning

日期: 2026-03-24
arXiv: 2603.22819
代码: 无
领域: 多模态VLM / 文档解析
关键词: table recognition, end-to-end, detail-aware learning, cell localization, HTML generation

一句话总结

TDATR 提出"感知-融合"两阶段端到端表格识别框架:先通过多任务语言建模联合感知表格结构和内容细节,再融合隐式表格细节生成结构化 HTML 输出,配合结构引导的单元格定位模块增强视觉-语言对齐,在有限数据下 7 个 benchmark 上取得 SOTA 或高度竞争力。

研究背景与动机

  1. 领域现状:表格识别(TR)是文档分析的基础任务。现有方法分两类:(a) 模块化流水线——分别做结构识别和内容识别,再拼接,集成复杂且误差累积;(b) 端到端方法——直接输出 HTML,但严重依赖大规模 TR 数据,数据受限时效果差。
  2. 现有痛点:(a) 模块化方法的结构和内容分别建模导致整合不佳;(b) 端到端方法在小数据场景下泛化差——不知道如何理解表格"细节"(行列结构、单元格合并、内容类型等)
  3. 核心矛盾:端到端的简洁性 vs 对表格细节的精确感知——直接生成 HTML 跳过了结构理解步骤
  4. 切入角度:先"感知细节"再"融合生成"——在生成 HTML 之前显式学习表格结构和内容的多种细节
  5. 核心 idea"感知→融合"策略——先多任务学习感知表格细节(结构理解+内容识别),再融合隐式细节知识生成 HTML,用更少数据达到更好效果

方法详解

整体框架

表格图像 → 视觉编码 → 阶段1: 表格细节感知(多任务语言建模——结构理解任务 + 内容识别任务)→ 获得隐式表格细节表示 → 阶段2: 融合生成结构化 HTML → 结构引导的单元格定位(增强视觉对齐)。

关键设计

  1. 多任务表格细节感知

    • 做什么:通过多个辅助任务在语言建模框架下联合学习表格结构和内容
    • 任务设计:(a) 行/列数预测;(b) 单元格合并检测;(c) 单元格内容识别(OCR);(d) 表格类型分类
    • 核心思路:所有任务统一为语言建模格式(Token 序列预测),共享编码器学习丰富的表格细节表示
    • 设计动机:多任务学习自然利用不同来源的文档数据增强模型鲁棒性
  2. 隐式细节融合的 HTML 生成

    • 做什么:将阶段1学到的隐式细节知识融入最终 HTML 生成
    • 核心思路:阶段1的隐藏状态作为阶段2的条件输入,使 HTML 生成受结构理解的指导
    • 设计动机:不是丢弃阶段1的中间表示,而是把它当作"先验知识"注入
  3. 结构引导的单元格定位模块

    • 做什么:在端到端框架中高效定位每个单元格的视觉区域
    • 核心思路:利用预测的表格结构(行列边界)指导单元格 bounding box 回归
    • 设计动机:加强视觉 token 与特定单元格内容的对齐——减少"张冠李戴"(内容放错单元格)

训练细节

  • 视觉编码器:Swin Transformer-Base
  • 语言解码器:6 层 Transformer decoder
  • 阶段1 多任务训练:行列数预测(回归头)+ 单元格合并检测(二分类头)+ OCR + 类型分类,统一为 token 序列预测
  • 阶段2 融合训练:将阶段1 的隐层特征通过交叉注意力注入 HTML 解码器
  • 训练数据:PubTabNet (568K) + FinTabNet (112K) + SciTSR + 其他小型数据集
  • 无需针对每个测试集微调——单一模型评测全部 7 个 benchmark

实验关键数据

主实验(7 个 Benchmark,无特定数据集微调)

方法 PubTabNet FinTabNet SciTSR 其他 训练数据量
TableFormer
UniCell
TDATR SOTA/竞争力 SOTA/竞争力 SOTA 更少

消融实验

配置 TEDS 说明
直接端到端(无细节感知) 基准 小数据下差
+ 表格细节感知(多任务) +3-5% 细节理解提升
+ 隐式细节融合 +2% 知识传递有效
+ 单元格定位对齐 +1-2% 减少内容错配

关键发现

  • "感知→融合"策略在数据受限场景下优势最大——细节感知任务利用了更多元的数据源
  • 多任务辅助学习的贡献在复杂表格(多合并单元格、嵌套结构)上更显著
  • 单元格定位模块提升了可解释性——可以可视化每个输出单元格对应的图像区域
  • 无需针对每个数据集微调即可在 7 个 benchmark 上表现良好——泛化性强
  • 在 FinTabNet(金融表格,结构复杂)上改善最大,在 SciTSR(学术表格,结构规整)上也有稳定提升
  • 隐式细节融合比显式拼接更有效——交叉注意力让 HTML 解码器自适应地选择需要的细节信息

亮点与洞察

  • "先理解再生成"的分阶段策略:不是一步到位直接生成 HTML,而是先多任务学透表格细节再生成——对信息密集的结构化文档尤其重要
  • 语言建模统一多任务:将结构理解和内容识别都转化为 token 预测,框架统一且易扩展
  • 单元格定位提升可解释性:知道模型"看了哪里"有助于调试和信任建立

局限性 / 可改进方向

  • 两阶段训练增加了复杂度,需分别调参
  • 对极度不规则表格(如infographic式表格)的处理待验证
  • 单元格定位精度依赖结构预测质量

相关工作与启发

  • vs TableFormer: TableFormer 端到端但无细节感知,TDATR 通过多任务学习增强了结构理解
  • vs UniCell: UniCell 统一方法但需大量数据,TDATR 在少数据下更优
  • vs GOT/Nougat: 这些通用文档 OCR 模型在表格上表现一般——表格的结构化特性需要专门处理

评分

  • 新颖性: ⭐⭐⭐⭐ "感知→融合"的两阶段设计有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 7 个benchmark + 无微调泛化 + 消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对文档理解和端到端表格识别有实际推动