Map&Make: Schema Guided Text to Table Generation¶
会议: ACL 2025
arXiv: 2505.23174
代码: 无
领域: NLP理解 / 信息抽取
关键词: 文本转表格、模式引导、命题分解、结构化摘要、信息抽取
一句话总结¶
提出 Map&Make 方法,先将非结构化文本"解剖"为命题原子语句(Map阶段),再从中推导表格模式并填充数据(Make阶段),在 Rotowire 和 Livesum 两个场景上显著提升了文本转表格的质量和可解释性。
研究背景与动机¶
领域现状:文本转表格(Text-to-Table)是信息检索中的重要任务,目标是将密集的非结构化文本转化为可解读的结构化表格。当前方法大多直接用 LLM 或序列到序列模型从文本生成表格,依赖模型隐式地理解文本结构。
现有痛点:现有方法存在两个关键问题。第一,缺乏对"提取什么信息"以及"如何组织信息"的显式指导,导致生成的表格结构不稳定、列名不一致、数据遗漏或冗余。第二,LLM 在直接生成表格时容易产生幻觉——编造文本中不存在的数据,尤其在处理复杂的多表格场景时。
核心矛盾:文本中的信息是隐式的、嵌套的、模糊的,而表格要求信息是显式的、扁平的、精确的。从隐式到显式的转换需要中间步骤,但现有方法试图一步到位,跨越了太大的语义鸿沟。
本文目标:设计一个分阶段的框架,通过中间表示(命题原子语句)桥接非结构化文本和结构化表格之间的语义鸿沟。
切入角度:受命题逻辑的启发,复杂文本可以分解为一系列原子命题,每个命题描述一个单一的事实。这种细粒度分解让后续的模式推导和数据填充更加可控。
核心 idea:用"命题原子语句分解 → 模式推导 → 表格填充"的三步流水线取代直接的文本到表格映射,让每一步都可解释、可验证。
方法详解¶
整体框架¶
Map&Make 包含两个核心阶段。Map 阶段:将输入文本分解为一组命题原子语句(propositional atomic statements),每条语句描述一个独立的事实单元。分解后的语句集合构成了文本的"事实清单"。Make 阶段:从事实清单中自动推导出表格模式(schema,即列名和表格结构),然后根据模式从原子语句中提取数据填充表格。
关键设计¶
-
命题原子语句分解(Propositional Decomposition):
- 功能:将复杂文本拆解为最小信息单元
- 核心思路:利用 LLM 将段落分解为一系列简短的原子命题。每个命题只包含一个主语-谓语-宾语关系或一个数值事实。例如,"勒布朗·詹姆斯在第二节砍下15分并抢了4个篮板"会被分解为"勒布朗·詹姆斯在第二节得了15分"和"勒布朗·詹姆斯在第二节抢了4个篮板"两个原子语句。分解时保留原文的语义忠实性,不添加推测信息。
- 设计动机:细粒度分解让每条信息可以独立验证,大幅降低了后续表格填充时的歧义和幻觉风险。同时,原子语句天然适合映射到表格的单个单元格。
-
模式推导(Schema Inference):
- 功能:自动确定表格的列名和结构
- 核心思路:在有参考模式(schema-guided)时,直接使用预定义的列名;在无参考模式(open schema)时,通过聚类原子语句中的谓语/属性来自动推导潜在的表格列。对于复杂的多表格场景(如 Rotowire 的球员统计表+球队统计表),根据主语类型将原子语句分组,为每组独立推导模式。
- 设计动机:显式的模式推导步骤确保了表格结构的一致性和完整性,避免了直接生成时列名混乱的问题。
-
幻觉修正与质量控制:
- 功能:提升生成表格的事实准确性
- 核心思路:在 Rotowire 数据集上,作者仔细识别并修正了原始标注中的幻觉错误(如错误的统计数字),构建了更干净的评测基准。在生成阶段,通过将原子语句与表格单元格一一对应,确保每个填入的数值都有原文依据。对于需要数值聚合的场景(如 Livesum 中的统计汇总),使用显式的计算步骤而非让模型隐式推断。
- 设计动机:Text-to-Table 任务中幻觉是核心问题。通过可追溯的原子语句到单元格的映射,每个数据点都可以溯源验证。
损失函数 / 训练策略¶
Map&Make 主要依赖 LLM 的 prompt engineering,不涉及模型微调。在 prompt 中详细描述了分解规则、模式格式和填充指令。使用 few-shot 示例引导 LLM 理解任务要求。
实验关键数据¶
主实验¶
| 数据集 | 方法 | F1 | Precision | Recall | NTD↓ |
|---|---|---|---|---|---|
| Rotowire | GPT-4 Direct | 48.3 | 52.1 | 45.0 | 0.42 |
| Rotowire | Map&Make | 63.7 | 67.2 | 60.5 | 0.28 |
| Rotowire | Previous SOTA | 55.2 | 58.6 | 52.1 | 0.35 |
| Livesum | GPT-4 Direct | 41.5 | 44.8 | 38.7 | 0.51 |
| Livesum | Map&Make | 56.2 | 60.1 | 52.8 | 0.34 |
| Livesum | Previous SOTA | 47.8 | 50.3 | 45.6 | 0.43 |
消融实验¶
| 配置 | Rotowire F1 | Livesum F1 | 说明 |
|---|---|---|---|
| Full Map&Make | 63.7 | 56.2 | 完整框架 |
| w/o Decomposition | 52.1 | 44.3 | 直接从文本推导模式 |
| w/o Schema Inference | 57.4 | 49.6 | 使用固定模式 |
| w/o Hallucination Fix | 59.8 | 53.1 | 不修正标注错误 |
| Random Decomposition | 48.9 | 41.7 | 随机拆分而非语义分解 |
关键发现¶
- 命题分解贡献最大:去掉分解步骤后 F1 下降超过 11%(Rotowire)和 12%(Livesum),说明中间表示至关重要。
- Livesum 上提升更显著:这个数据集需要数值聚合,命题分解让计算步骤更清晰,减少了算术错误。
- Rotowire 标注质量问题:修复原始标注中的幻觉错误后,所有方法的绝对得分都提高了,说明评测基准本身的质量对研究结论有重要影响。
- 开放模式下也有效:即使不预定义表格模式,自动推导的模式质量也令人满意,说明框架的通用性。
亮点与洞察¶
- 命题分解是一个通用的中间步骤:这个思路不限于 Text-to-Table,可以推广到任何需要从非结构化文本提取结构化信息的任务,如知识图谱构建、事件抽取、关系抽取等。分解为原子语句本质上是在做信息粒度标准化。
- 修正评测集标注错误的负责任态度:很多工作在发现评测集问题后选择绕过,这篇论文选择直接修正错误并开放修正版本,为社区提供了更可靠的基准。
- 可解释性强:每一步都有明确的中间输出,调试和错误分析时可以准确定位问题出在分解、模式推导还是填充阶段。
局限与展望¶
- 依赖 LLM 分解质量:如果 LLM 的命题分解本身有误(遗漏或错误),错误会级联传播到后续步骤。
- 计算成本较高:分解、模式推导、填充三步都需要 LLM 调用,推理开销是直接方法的数倍。
- 仅在英文数据集上验证:未测试多语言场景下的命题分解效果。
- 复杂嵌套表格支持有限:对于多层嵌套的表头结构,当前的模式推导可能力不从心。
- 未来可以探索轻量化的分解模型替代大 LLM,以及多语言命题分解。
相关工作与启发¶
- vs TAPAS/TaPEx: 这些方法为表格理解(Table QA)设计,方向相反——从表格中回答问题。Map&Make 关注的是"从文本构建表格",可以看作表格理解任务的上游。
- vs 传统信息抽取(IE): IE 方法通常需要预定义模式(如关系三元组),而 Map&Make 可以自动推导模式,灵活性更强。但在精确度上,专用 IE 模型可能在特定领域更优。
- vs Chain-of-Table: Chain-of-Table 专注于表格操作的多步推理,而 Map&Make 聚焦于表格的生成阶段,两者可以串联使用。
评分¶
- 新颖性: ⭐⭐⭐⭐ 命题分解作为中间表示的思路简洁有效,schema-guided 的设计有实用价值
- 实验充分度: ⭐⭐⭐⭐ 两个数据集上的对比和消融完整,但数据集多样性可以进一步提升
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,pipeline 的每一步动机明确
- 价值: ⭐⭐⭐⭐ 对结构化信息抽取方向有启发,命题分解思路可广泛应用
相关论文¶
- [ACL 2025] TabXEval: Why this is a Bad Table? An eXhaustive Rubric for Table Evaluation
- [ACL 2025] MapQaTor: An Extensible Framework for Efficient Annotation of Map-Based QA Datasets
- [ACL 2025] Towards Text-Image Interleaved Retrieval
- [ACL 2025] DAPE V2: Process Attention Score as Feature Map for Length Extrapolation
- [ACL 2025] SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL