跳转至

Map&Make: Schema Guided Text to Table Generation

会议: ACL 2025
arXiv: 2505.23174
代码: 无
领域: NLP理解 / 信息抽取
关键词: 文本转表格、模式引导、命题分解、结构化摘要、信息抽取

一句话总结

提出 Map&Make 方法,先将非结构化文本"解剖"为命题原子语句(Map阶段),再从中推导表格模式并填充数据(Make阶段),在 Rotowire 和 Livesum 两个场景上显著提升了文本转表格的质量和可解释性。

研究背景与动机

领域现状:文本转表格(Text-to-Table)是信息检索中的重要任务,目标是将密集的非结构化文本转化为可解读的结构化表格。当前方法大多直接用 LLM 或序列到序列模型从文本生成表格,依赖模型隐式地理解文本结构。

现有痛点:现有方法存在两个关键问题。第一,缺乏对"提取什么信息"以及"如何组织信息"的显式指导,导致生成的表格结构不稳定、列名不一致、数据遗漏或冗余。第二,LLM 在直接生成表格时容易产生幻觉——编造文本中不存在的数据,尤其在处理复杂的多表格场景时。

核心矛盾:文本中的信息是隐式的、嵌套的、模糊的,而表格要求信息是显式的、扁平的、精确的。从隐式到显式的转换需要中间步骤,但现有方法试图一步到位,跨越了太大的语义鸿沟。

本文目标:设计一个分阶段的框架,通过中间表示(命题原子语句)桥接非结构化文本和结构化表格之间的语义鸿沟。

切入角度:受命题逻辑的启发,复杂文本可以分解为一系列原子命题,每个命题描述一个单一的事实。这种细粒度分解让后续的模式推导和数据填充更加可控。

核心 idea:用"命题原子语句分解 → 模式推导 → 表格填充"的三步流水线取代直接的文本到表格映射,让每一步都可解释、可验证。

方法详解

整体框架

Map&Make 包含两个核心阶段。Map 阶段:将输入文本分解为一组命题原子语句(propositional atomic statements),每条语句描述一个独立的事实单元。分解后的语句集合构成了文本的"事实清单"。Make 阶段:从事实清单中自动推导出表格模式(schema,即列名和表格结构),然后根据模式从原子语句中提取数据填充表格。

关键设计

  1. 命题原子语句分解(Propositional Decomposition):

    • 功能:将复杂文本拆解为最小信息单元
    • 核心思路:利用 LLM 将段落分解为一系列简短的原子命题。每个命题只包含一个主语-谓语-宾语关系或一个数值事实。例如,"勒布朗·詹姆斯在第二节砍下15分并抢了4个篮板"会被分解为"勒布朗·詹姆斯在第二节得了15分"和"勒布朗·詹姆斯在第二节抢了4个篮板"两个原子语句。分解时保留原文的语义忠实性,不添加推测信息。
    • 设计动机:细粒度分解让每条信息可以独立验证,大幅降低了后续表格填充时的歧义和幻觉风险。同时,原子语句天然适合映射到表格的单个单元格。
  2. 模式推导(Schema Inference):

    • 功能:自动确定表格的列名和结构
    • 核心思路:在有参考模式(schema-guided)时,直接使用预定义的列名;在无参考模式(open schema)时,通过聚类原子语句中的谓语/属性来自动推导潜在的表格列。对于复杂的多表格场景(如 Rotowire 的球员统计表+球队统计表),根据主语类型将原子语句分组,为每组独立推导模式。
    • 设计动机:显式的模式推导步骤确保了表格结构的一致性和完整性,避免了直接生成时列名混乱的问题。
  3. 幻觉修正与质量控制:

    • 功能:提升生成表格的事实准确性
    • 核心思路:在 Rotowire 数据集上,作者仔细识别并修正了原始标注中的幻觉错误(如错误的统计数字),构建了更干净的评测基准。在生成阶段,通过将原子语句与表格单元格一一对应,确保每个填入的数值都有原文依据。对于需要数值聚合的场景(如 Livesum 中的统计汇总),使用显式的计算步骤而非让模型隐式推断。
    • 设计动机:Text-to-Table 任务中幻觉是核心问题。通过可追溯的原子语句到单元格的映射,每个数据点都可以溯源验证。

损失函数 / 训练策略

Map&Make 主要依赖 LLM 的 prompt engineering,不涉及模型微调。在 prompt 中详细描述了分解规则、模式格式和填充指令。使用 few-shot 示例引导 LLM 理解任务要求。

实验关键数据

主实验

数据集 方法 F1 Precision Recall NTD↓
Rotowire GPT-4 Direct 48.3 52.1 45.0 0.42
Rotowire Map&Make 63.7 67.2 60.5 0.28
Rotowire Previous SOTA 55.2 58.6 52.1 0.35
Livesum GPT-4 Direct 41.5 44.8 38.7 0.51
Livesum Map&Make 56.2 60.1 52.8 0.34
Livesum Previous SOTA 47.8 50.3 45.6 0.43

消融实验

配置 Rotowire F1 Livesum F1 说明
Full Map&Make 63.7 56.2 完整框架
w/o Decomposition 52.1 44.3 直接从文本推导模式
w/o Schema Inference 57.4 49.6 使用固定模式
w/o Hallucination Fix 59.8 53.1 不修正标注错误
Random Decomposition 48.9 41.7 随机拆分而非语义分解

关键发现

  • 命题分解贡献最大:去掉分解步骤后 F1 下降超过 11%(Rotowire)和 12%(Livesum),说明中间表示至关重要。
  • Livesum 上提升更显著:这个数据集需要数值聚合,命题分解让计算步骤更清晰,减少了算术错误。
  • Rotowire 标注质量问题:修复原始标注中的幻觉错误后,所有方法的绝对得分都提高了,说明评测基准本身的质量对研究结论有重要影响。
  • 开放模式下也有效:即使不预定义表格模式,自动推导的模式质量也令人满意,说明框架的通用性。

亮点与洞察

  • 命题分解是一个通用的中间步骤:这个思路不限于 Text-to-Table,可以推广到任何需要从非结构化文本提取结构化信息的任务,如知识图谱构建、事件抽取、关系抽取等。分解为原子语句本质上是在做信息粒度标准化。
  • 修正评测集标注错误的负责任态度:很多工作在发现评测集问题后选择绕过,这篇论文选择直接修正错误并开放修正版本,为社区提供了更可靠的基准。
  • 可解释性强:每一步都有明确的中间输出,调试和错误分析时可以准确定位问题出在分解、模式推导还是填充阶段。

局限与展望

  • 依赖 LLM 分解质量:如果 LLM 的命题分解本身有误(遗漏或错误),错误会级联传播到后续步骤。
  • 计算成本较高:分解、模式推导、填充三步都需要 LLM 调用,推理开销是直接方法的数倍。
  • 仅在英文数据集上验证:未测试多语言场景下的命题分解效果。
  • 复杂嵌套表格支持有限:对于多层嵌套的表头结构,当前的模式推导可能力不从心。
  • 未来可以探索轻量化的分解模型替代大 LLM,以及多语言命题分解。

相关工作与启发

  • vs TAPAS/TaPEx: 这些方法为表格理解(Table QA)设计,方向相反——从表格中回答问题。Map&Make 关注的是"从文本构建表格",可以看作表格理解任务的上游。
  • vs 传统信息抽取(IE): IE 方法通常需要预定义模式(如关系三元组),而 Map&Make 可以自动推导模式,灵活性更强。但在精确度上,专用 IE 模型可能在特定领域更优。
  • vs Chain-of-Table: Chain-of-Table 专注于表格操作的多步推理,而 Map&Make 聚焦于表格的生成阶段,两者可以串联使用。

评分

  • 新颖性: ⭐⭐⭐⭐ 命题分解作为中间表示的思路简洁有效,schema-guided 的设计有实用价值
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集上的对比和消融完整,但数据集多样性可以进一步提升
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,pipeline 的每一步动机明确
  • 价值: ⭐⭐⭐⭐ 对结构化信息抽取方向有启发,命题分解思路可广泛应用

相关论文