TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning¶

日期: 2026-03-24
arXiv: 2603.22819
代码: 无
领域: 多模态VLM / 文档解析
关键词: table recognition, end-to-end, detail-aware learning, cell localization, HTML generation

一句话总结¶

TDATR 提出"感知-融合"两阶段端到端表格识别框架：先通过多任务语言建模联合感知表格结构和内容细节，再融合隐式表格细节生成结构化 HTML 输出，配合结构引导的单元格定位模块增强视觉-语言对齐，在有限数据下 7 个 benchmark 上取得 SOTA 或高度竞争力。

研究背景与动机¶

领域现状：表格识别（TR）是文档分析的基础任务。现有方法分两类：(a) 模块化流水线——分别做结构识别和内容识别，再拼接，集成复杂且误差累积；(b) 端到端方法——直接输出 HTML，但严重依赖大规模 TR 数据，数据受限时效果差。
现有痛点：(a) 模块化方法的结构和内容分别建模导致整合不佳；(b) 端到端方法在小数据场景下泛化差——不知道如何理解表格"细节"（行列结构、单元格合并、内容类型等）
核心矛盾：端到端的简洁性 vs 对表格细节的精确感知——直接生成 HTML 跳过了结构理解步骤
切入角度：先"感知细节"再"融合生成"——在生成 HTML 之前显式学习表格结构和内容的多种细节
核心 idea："感知→融合"策略——先多任务学习感知表格细节（结构理解+内容识别），再融合隐式细节知识生成 HTML，用更少数据达到更好效果

方法详解¶

整体框架¶

表格图像 → 视觉编码 → 阶段1: 表格细节感知（多任务语言建模——结构理解任务 + 内容识别任务）→ 获得隐式表格细节表示 → 阶段2: 融合生成结构化 HTML → 结构引导的单元格定位（增强视觉对齐）。

关键设计¶

多任务表格细节感知
- 做什么：通过多个辅助任务在语言建模框架下联合学习表格结构和内容
- 任务设计：(a) 行/列数预测；(b) 单元格合并检测；(c) 单元格内容识别（OCR）；(d) 表格类型分类
- 核心思路：所有任务统一为语言建模格式（Token 序列预测），共享编码器学习丰富的表格细节表示
- 设计动机：多任务学习自然利用不同来源的文档数据增强模型鲁棒性
隐式细节融合的 HTML 生成
- 做什么：将阶段1学到的隐式细节知识融入最终 HTML 生成
- 核心思路：阶段1的隐藏状态作为阶段2的条件输入，使 HTML 生成受结构理解的指导
- 设计动机：不是丢弃阶段1的中间表示，而是把它当作"先验知识"注入
结构引导的单元格定位模块
- 做什么：在端到端框架中高效定位每个单元格的视觉区域
- 核心思路：利用预测的表格结构（行列边界）指导单元格 bounding box 回归
- 设计动机：加强视觉 token 与特定单元格内容的对齐——减少"张冠李戴"（内容放错单元格）

训练细节¶

视觉编码器：Swin Transformer-Base
语言解码器：6 层 Transformer decoder
阶段1 多任务训练：行列数预测（回归头）+ 单元格合并检测（二分类头）+ OCR + 类型分类，统一为 token 序列预测
阶段2 融合训练：将阶段1 的隐层特征通过交叉注意力注入 HTML 解码器
训练数据：PubTabNet (568K) + FinTabNet (112K) + SciTSR + 其他小型数据集
无需针对每个测试集微调——单一模型评测全部 7 个 benchmark

实验关键数据¶

主实验（7 个 Benchmark，无特定数据集微调）¶

方法	PubTabNet	FinTabNet	SciTSR	其他	训练数据量
TableFormer	中	中	中	中	大
UniCell	好	好	好	好	大
TDATR	SOTA/竞争力	SOTA/竞争力	SOTA	好	更少

消融实验¶

配置	TEDS	说明
直接端到端（无细节感知）	基准	小数据下差
+ 表格细节感知（多任务）	+3-5%	细节理解提升
+ 隐式细节融合	+2%	知识传递有效
+ 单元格定位对齐	+1-2%	减少内容错配

关键发现¶

"感知→融合"策略在数据受限场景下优势最大——细节感知任务利用了更多元的数据源
多任务辅助学习的贡献在复杂表格（多合并单元格、嵌套结构）上更显著
单元格定位模块提升了可解释性——可以可视化每个输出单元格对应的图像区域
无需针对每个数据集微调即可在 7 个 benchmark 上表现良好——泛化性强
在 FinTabNet（金融表格，结构复杂）上改善最大，在 SciTSR（学术表格，结构规整）上也有稳定提升
隐式细节融合比显式拼接更有效——交叉注意力让 HTML 解码器自适应地选择需要的细节信息

亮点与洞察¶

"先理解再生成"的分阶段策略：不是一步到位直接生成 HTML，而是先多任务学透表格细节再生成——对信息密集的结构化文档尤其重要
语言建模统一多任务：将结构理解和内容识别都转化为 token 预测，框架统一且易扩展
单元格定位提升可解释性：知道模型"看了哪里"有助于调试和信任建立

局限性 / 可改进方向¶

两阶段训练增加了复杂度，需分别调参
对极度不规则表格（如infographic式表格）的处理待验证
单元格定位精度依赖结构预测质量

评分¶

新颖性: ⭐⭐⭐⭐ "感知→融合"的两阶段设计有价值
实验充分度: ⭐⭐⭐⭐⭐ 7 个benchmark + 无微调泛化 + 消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对文档理解和端到端表格识别有实际推动