Map&Make: Schema Guided Text to Table Generation¶

会议: ACL 2025
arXiv: 2505.23174
代码: 无
领域: NLP理解 / 信息抽取
关键词: 文本转表格、模式引导、命题分解、结构化摘要、信息抽取

一句话总结¶

提出 Map&Make 方法，先将非结构化文本"解剖"为命题原子语句（Map阶段），再从中推导表格模式并填充数据（Make阶段），在 Rotowire 和 Livesum 两个场景上显著提升了文本转表格的质量和可解释性。

研究背景与动机¶

领域现状：文本转表格（Text-to-Table）是信息检索中的重要任务，目标是将密集的非结构化文本转化为可解读的结构化表格。当前方法大多直接用 LLM 或序列到序列模型从文本生成表格，依赖模型隐式地理解文本结构。

现有痛点：现有方法存在两个关键问题。第一，缺乏对"提取什么信息"以及"如何组织信息"的显式指导，导致生成的表格结构不稳定、列名不一致、数据遗漏或冗余。第二，LLM 在直接生成表格时容易产生幻觉——编造文本中不存在的数据，尤其在处理复杂的多表格场景时。

核心矛盾：文本中的信息是隐式的、嵌套的、模糊的，而表格要求信息是显式的、扁平的、精确的。从隐式到显式的转换需要中间步骤，但现有方法试图一步到位，跨越了太大的语义鸿沟。

本文目标：设计一个分阶段的框架，通过中间表示（命题原子语句）桥接非结构化文本和结构化表格之间的语义鸿沟。

切入角度：受命题逻辑的启发，复杂文本可以分解为一系列原子命题，每个命题描述一个单一的事实。这种细粒度分解让后续的模式推导和数据填充更加可控。

核心 idea：用"命题原子语句分解 → 模式推导 → 表格填充"的三步流水线取代直接的文本到表格映射，让每一步都可解释、可验证。

方法详解¶

整体框架¶

Map&Make 包含两个核心阶段。Map 阶段：将输入文本分解为一组命题原子语句（propositional atomic statements），每条语句描述一个独立的事实单元。分解后的语句集合构成了文本的"事实清单"。Make 阶段：从事实清单中自动推导出表格模式（schema，即列名和表格结构），然后根据模式从原子语句中提取数据填充表格。

关键设计¶

命题原子语句分解（Propositional Decomposition）:
- 功能：将复杂文本拆解为最小信息单元
- 核心思路：利用 LLM 将段落分解为一系列简短的原子命题。每个命题只包含一个主语-谓语-宾语关系或一个数值事实。例如，"勒布朗·詹姆斯在第二节砍下15分并抢了4个篮板"会被分解为"勒布朗·詹姆斯在第二节得了15分"和"勒布朗·詹姆斯在第二节抢了4个篮板"两个原子语句。分解时保留原文的语义忠实性，不添加推测信息。
- 设计动机：细粒度分解让每条信息可以独立验证，大幅降低了后续表格填充时的歧义和幻觉风险。同时，原子语句天然适合映射到表格的单个单元格。
模式推导（Schema Inference）:
- 功能：自动确定表格的列名和结构
- 核心思路：在有参考模式（schema-guided）时，直接使用预定义的列名；在无参考模式（open schema）时，通过聚类原子语句中的谓语/属性来自动推导潜在的表格列。对于复杂的多表格场景（如 Rotowire 的球员统计表+球队统计表），根据主语类型将原子语句分组，为每组独立推导模式。
- 设计动机：显式的模式推导步骤确保了表格结构的一致性和完整性，避免了直接生成时列名混乱的问题。
幻觉修正与质量控制:
- 功能：提升生成表格的事实准确性
- 核心思路：在 Rotowire 数据集上，作者仔细识别并修正了原始标注中的幻觉错误（如错误的统计数字），构建了更干净的评测基准。在生成阶段，通过将原子语句与表格单元格一一对应，确保每个填入的数值都有原文依据。对于需要数值聚合的场景（如 Livesum 中的统计汇总），使用显式的计算步骤而非让模型隐式推断。
- 设计动机：Text-to-Table 任务中幻觉是核心问题。通过可追溯的原子语句到单元格的映射，每个数据点都可以溯源验证。

损失函数 / 训练策略¶

Map&Make 主要依赖 LLM 的 prompt engineering，不涉及模型微调。在 prompt 中详细描述了分解规则、模式格式和填充指令。使用 few-shot 示例引导 LLM 理解任务要求。

实验关键数据¶

主实验¶

数据集	方法	F1	Precision	Recall	NTD↓
Rotowire	GPT-4 Direct	48.3	52.1	45.0	0.42
Rotowire	Map&Make	63.7	67.2	60.5	0.28
Rotowire	Previous SOTA	55.2	58.6	52.1	0.35
Livesum	GPT-4 Direct	41.5	44.8	38.7	0.51
Livesum	Map&Make	56.2	60.1	52.8	0.34
Livesum	Previous SOTA	47.8	50.3	45.6	0.43

消融实验¶

配置	Rotowire F1	Livesum F1	说明
Full Map&Make	63.7	56.2	完整框架
w/o Decomposition	52.1	44.3	直接从文本推导模式
w/o Schema Inference	57.4	49.6	使用固定模式
w/o Hallucination Fix	59.8	53.1	不修正标注错误
Random Decomposition	48.9	41.7	随机拆分而非语义分解

关键发现¶

命题分解贡献最大：去掉分解步骤后 F1 下降超过 11%（Rotowire）和 12%（Livesum），说明中间表示至关重要。
Livesum 上提升更显著：这个数据集需要数值聚合，命题分解让计算步骤更清晰，减少了算术错误。
Rotowire 标注质量问题：修复原始标注中的幻觉错误后，所有方法的绝对得分都提高了，说明评测基准本身的质量对研究结论有重要影响。
开放模式下也有效：即使不预定义表格模式，自动推导的模式质量也令人满意，说明框架的通用性。

亮点与洞察¶

命题分解是一个通用的中间步骤：这个思路不限于 Text-to-Table，可以推广到任何需要从非结构化文本提取结构化信息的任务，如知识图谱构建、事件抽取、关系抽取等。分解为原子语句本质上是在做信息粒度标准化。
修正评测集标注错误的负责任态度：很多工作在发现评测集问题后选择绕过，这篇论文选择直接修正错误并开放修正版本，为社区提供了更可靠的基准。
可解释性强：每一步都有明确的中间输出，调试和错误分析时可以准确定位问题出在分解、模式推导还是填充阶段。

局限与展望¶

依赖 LLM 分解质量：如果 LLM 的命题分解本身有误（遗漏或错误），错误会级联传播到后续步骤。
计算成本较高：分解、模式推导、填充三步都需要 LLM 调用，推理开销是直接方法的数倍。
仅在英文数据集上验证：未测试多语言场景下的命题分解效果。
复杂嵌套表格支持有限：对于多层嵌套的表头结构，当前的模式推导可能力不从心。
未来可以探索轻量化的分解模型替代大 LLM，以及多语言命题分解。

评分¶

新颖性: ⭐⭐⭐⭐ 命题分解作为中间表示的思路简洁有效，schema-guided 的设计有实用价值
实验充分度: ⭐⭐⭐⭐ 两个数据集上的对比和消融完整，但数据集多样性可以进一步提升
写作质量: ⭐⭐⭐⭐ 方法描述清晰，pipeline 的每一步动机明确
价值: ⭐⭐⭐⭐ 对结构化信息抽取方向有启发，命题分解思路可广泛应用