跳转至

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

会议: NeurIPS 2025 (AI4Tab Workshop)
arXiv: 2511.06582
代码:
领域: RAG / 文档问答
关键词: 表格问答, RAG, 结构化表示, 视觉语言模型, 文档解析

一句话总结

提出 TabRAG,一种基于解析的 RAG 框架,通过布局分割将文档分解为细粒度组件,使用视觉语言模型将表格提取为层次化结构表示,并集成自生成上下文学习模块来适配多种表格格式,在表格文档问答上全面优于现有解析技术。

研究背景与动机

传统的 RAG(检索增强生成)系统在处理纯文本文档时效果良好:解析文档 → 将解析后的信息通过上下文学习传给语言模型。然而,当文档包含表格数据时,现有 RAG 方法往往失败。

核心问题在于:标准的文档解析技术(如 OCR、PDF 解析器)会丢失表格的二维结构语义。表格中一个单元格的含义取决于其行标题和列标题,但简单的文本提取将表格"平铺化"为一维文本,导致:

  • 单元格与其行/列标题的对应关系丢失
  • 合并单元格、嵌套标题等复杂结构被破坏
  • 下游语言模型无法正确理解表格内容

方法详解

整体框架

TabRAG 的处理流程包含三个主要阶段:

  1. 布局分割(Layout Segmentation): 将文档页面分解为文本块、表格、图片等组件
  2. 结构化表格提取(Structured Table Extraction): 使用 VLM 将表格图像转换为层次化结构表示
  3. 自生成上下文学习(Self-Generated ICL): 自动生成适配当前表格格式的上下文示例

关键设计

布局分割: 使用文档布局分析模型(如 LayoutLM 或 DETR 变体)检测文档页面中的不同区域: - 文本区域 → 标准文本提取 - 表格区域 → 进入结构化提取管线 - 图片区域 → 视觉描述生成

层次化结构表示: 不同于简单的 HTML 或 CSV 格式,TabRAG 将表格解析为层次化结构,保留: - 表格标题和上下文 - 列标题层次(支持多级标题) - 行标题层次 - 单元格值及其与行/列标题的映射关系 - 合并单元格的范围信息

这种结构化表示使得语言模型可以准确定位和理解每个单元格的语义。

自生成上下文学习 (Self-Generated ICL): 由于表格格式和样式差异很大(财务报表 vs 科学实验数据 vs 统计表格),固定的提取提示可能不适用于所有情况。TabRAG 的解决方案:

  1. 对当前表格进行初步分析,识别其类型和格式特征
  2. 自动生成几个类似格式表格到结构化表示的转换示例
  3. 将这些示例作为上下文提供给 VLM,引导精确提取

损失函数 / 训练策略

TabRAG 主要是推理时(inference-time)框架,核心模块不需要针对特定数据集训练: - 布局分割使用预训练模型 - 结构化提取通过 VLM 的上下文学习实现 - 自生成 ICL 是完全自动的

端到端的评估流程:文档 → 布局分割 → 结构化提取 → 结构化表示存入知识库 → 用户查询 → 检索相关条目 → LLM 回答

实验关键数据

主实验

在多个表格文档问答基准上与现有解析方法对比。

主要指标: 精确匹配 (EM) 和 F1 分数:

解析方法 FinQA EM ↑ FinQA F1 ↑ WikiTableQA EM ↑ WikiTableQA F1 ↑ TAT-QA EM ↑ TAT-QA F1 ↑
PyMuPDF 32.5 41.2 28.8 38.5 35.2 44.8
Unstructured 38.1 47.6 34.2 44.1 40.5 50.2
LlamaParse 42.3 52.8 39.5 49.3 45.8 55.6
Docling 44.7 54.2 41.2 51.5 47.3 57.8
TabRAG 51.2 62.5 48.6 58.2 54.1 65.3

TabRAG 在所有基准上全面领先,FinQA 上的 EM 提升了 6.5 个百分点。

不同 LLM 骨干下的表现:

解析方法 GPT-4 EM GPT-4 F1 Claude-3 EM Claude-3 F1 Llama-3 EM Llama-3 F1
LlamaParse 42.3 52.8 40.1 50.5 35.8 45.2
Docling 44.7 54.2 42.5 52.8 37.2 47.5
TabRAG 51.2 62.5 49.5 60.8 44.3 55.1

TabRAG 的优势在不同 LLM 骨干下保持一致。

消融实验

各组件的贡献(FinQA,GPT-4):

配置 EM ↑ F1 ↑ ΔEM
完整 TabRAG 51.2 62.5
去除 Self-ICL 47.5 58.1 -3.7
去除层次结构 (扁平 HTML) 44.8 55.2 -6.4
去除布局分割 (全页输入) 43.2 53.5 -8.0
去除 VLM (仅 OCR) 38.5 48.2 -12.7
  • VLM 是最关键的组件(去除后 EM 下降 12.7)
  • 布局分割的贡献次之(-8.0)
  • 层次化结构表示优于扁平 HTML(-6.4)
  • Self-ICL 提供了有价值的增益(-3.7)

关键发现

  1. 结构化表示至关重要: 层次化表示比扁平 HTML/CSV 更能保留表格语义
  2. VLM 是核心引擎: 视觉语言模型的表格理解能力是准确提取的基础
  3. Self-ICL 的适应性: 自生成示例使方法能适配多种表格格式,无需人工设计针对性提示
  4. 布局分割提供细粒度: 将文档分解为组件后再处理优于整页处理
  5. 与 LLM 无关: TabRAG 的改进在不同下游 LLM 上都成立

亮点与洞察

  • 填补了 RAG 的关键缺口: 表格文档问答是 RAG 系统的已知痛点,TabRAG 提供了系统性解决方案
  • 无需训练: 完全基于推理时的技巧(布局分析 + VLM + ICL),部署简单
  • 模块化设计: 每个组件可以独立替换和升级
  • 实际应用价值高: 金融、医疗、法律等领域大量文档包含关键表格数据

局限与展望

  1. Workshop 论文: 评估规模可能有限
  2. VLM 依赖: 依赖强大的 VLM 模型,推理成本较高
  3. 复杂表格处理: 跨页表格、极大表格可能仍有挑战
  4. 延迟: 多步处理管线可能增加端到端延迟
  5. 非英语支持: 未验证多语言表格文档的处理能力

相关工作与启发

  • 文档理解: LayoutLM (Xu et al., 2020), DocFormer 等
  • 表格问答: TAPAS (Herzig et al., 2020), TaBERT (Yin et al., 2020)
  • RAG 系统: LangChain, LlamaIndex, 以及各种文档解析工具
  • VLM 在文档中的应用: GPT-4V, Claude 在文档理解中的能力

评分

  • 创新性: 4/5 — 层次化结构表示和 Self-ICL 的组合是新颖的
  • 技术质量: 3/5 — Workshop 级别,但实验设计系统
  • 表达质量: 4/5 — 问题定义清晰,方法描述直观
  • 实用性: 5/5 — 直接解决 RAG 系统的实际痛点
  • 综合评分: 4/5

相关论文