跳转至

TabReX: Tabular Referenceless eXplainable Evaluation

会议: ACL 2026
arXiv: 2512.15907
代码: GitHub
领域: 表格生成评估
关键词: 表格评估指标, 无参考评估, 知识图谱对齐, 可解释评估, 结构化生成

一句话总结

提出 TabReX,一种基于图推理的无参考表格生成评估框架,将源文本和生成表格转化为知识图谱三元组并对齐,计算可解释的属性驱动分数,在人类判断相关性上大幅超越现有方法;同时构建 TabReX-Bench 大规模基准。

研究背景与动机

领域现状:随着 LLM 越来越多地被用于生成或转换结构化输出(如将报告转为财务表格、合成患者数据),自动评估表格质量成为关键需求。现有评估指标主要有几类:n-gram 指标(BLEU、ROUGE)、嵌入指标(BERTScore、BLEURT)、token 级精确匹配(Exact Match、PARENT),以及基于 QA 的无参考指标(QuestEval)和最近的 LLM 评判指标(TabEval、TabXEval)。

现有痛点:(1) N-gram 和嵌入指标将表格展平为文本,完全忽略行列结构和单位语义;(2) Token 级方法无法区分无害的格式调整和真正的事实错误;(3) QA 指标过度惩罚布局变化(如行重排序);(4) 大多数指标需要参考表格,限制了通用性;(5) 现有基准规模小、扰动类型单一,无法全面测试指标鲁棒性。

核心矛盾:表格评估需要同时考虑结构保真度和事实准确性,还要区分数据保持变换(如行重排、单位转换)和数据更改变换(如数值篡改、行列增删),但现有指标都无法在这两个维度上同时表现良好。

本文目标:设计一种无参考、属性驱动、可解释的表格评估框架,能够提供单元格级别的错误追溯和可调节的灵敏度-特异性 trade-off。

切入角度:将表格评估转化为图对齐问题——源文本和生成表格都可以表示为知识图谱三元组 [主语, 谓语, 宾语],对齐这些三元组就可以精确定位匹配、缺失和多余的信息。

核心 idea:用 Text2Graph 和 Table2Graph 将两种模态统一到三元组空间,通过 LLM 引导的图对齐找到对应关系和差异,然后用属性驱动的评分函数计算可解释的分数。

方法详解

整体框架

TabReX 是一个三阶段管线:(1) 将源文本和候选表格分别转化为知识图谱(Text2Graph + Table2Graph);(2) 通过 LLM 引导的图对齐找到三元组之间的对应关系;(3) 从对齐结果中计算属性驱动的结构和内容分数。最终输出包括表格级分数和单元格级错误追溯。

关键设计

  1. 双模态知识图谱转换:

    • 功能:将文本和表格统一为可比较的三元组表示
    • 核心思路:对文本,使用 LLM 按实体中心语法提取原子事实三元组 \(\mathcal{G}_S = \{(s_i, p_i, o_i)\}\),强制一致的粒度、规范化谓语和单位感知值。对表格,使用轻量规则将表头作为谓语、行标识作为主语、单元格值作为宾语确定性生成三元组
    • 设计动机:将两种模态统一到同一表示空间后,评估变为图对齐问题,消除了模态差异带来的偏差。表格端使用确定性规则(无 LLM)确保速度和一致性
  2. LLM 引导的图对齐:

    • 功能:精确匹配来自文本和表格的三元组
    • 核心思路:两步对齐——(1) 确定性匹配:对主语-谓语对完全相同或 schema 归一化后相同的三元组直接对齐;(2) LLM 辅助精炼:处理剩余的释义、缩写和复合属性(如 "GDP growth (YoY)" ↔ "growth_rate_2021")。每个匹配对标注差异向量 \(\Delta\),记录单位感知数值差、类别不匹配、缺失/多余标记
    • 设计动机:确定性匹配处理简单情况(速度快),LLM 处理需要语义理解的困难情况,兼顾效率和准确性
  3. 属性驱动评分:

    • 功能:从对齐结果计算可解释、可调节的评估分数
    • 核心思路:分为两个组件——TablePenalty 计算行/列级缺失(MI)和多余(EI)实体的归一化比例;CellPenalty 计算单元格级缺失/多余/部分匹配(数值偏差 \(\Gamma\))。最终分数 \(\mathcal{S}_{\text{TabReX}} = \text{TablePenalty} + \text{CellPenalty}\)。权重参数 \((\alpha, \beta)\) 提供灵敏度-特异性的可调 trade-off:增大 \(\beta_{\text{MI}}\) 偏向灵敏度(奖励覆盖全面),增大 \(\beta_{\text{EI}}\) 偏向特异性(惩罚幻觉)
    • 设计动机:不同领域对错误容忍度不同(金融要精确、临床要召回),可调权重使同一框架适应不同需求

损失函数 / 训练策略

TabReX 无需训练,是纯推理时的评估框架。LLM 仅用于 Text2Graph 和图对齐两步,评分函数完全确定性。

实验关键数据

主实验

与人类排名的相关性对比(Table 2):

指标类别 方法 Spearman ρ (↑) Kendall τ (↑) Tie ratio (↓)
非LLM (有参考) EM 45.88 39.38 58.40
非LLM (有参考) BERTScore 36.21 30.66 0.92
LLM (有参考) TabXEval 80.27 72.37 45.33
无参考 QuestEval 62.93 52.29 3.03
无参考 TabReX 74.51 64.24 13.59

TabReX 在无参考条件下接近最强有参考方法 TabXEval 的相关性,且 tie ratio 大幅更低(13.6% vs 45.3%)。

消融实验

集成方法 Spearman ρ Kendall τ 说明
Lex-Emb (Mean) 38.43 32.65 词法+嵌入集成
LLM (Harmonic) 56.00 46.93 LLM指标集成
Hybrid (Harmonic) 54.03 42.71 混合集成
TabReX 74.51 64.24 单一方法

关键发现

  • TabReX 单一指标超越所有集成方法,说明图对齐范式本身就比简单聚合更有效
  • 从 easy 到 hard 扰动,TabReX 的灵敏度-特异性 trade-off 保持稳定(箭头移动小),而 EM、H-Score 等大幅退化
  • TabXEval 虽然相关性最高但 tie ratio 达 45.3%,意味着近一半的不同变体被打相同分——判别精度不足
  • TabReX-Bench(710 表 × 12 扰动 = 9120 实例,6 领域,3 难度级)是当前最大的表格评估基准

亮点与洞察

  • 知识图谱三元组作为中间表示的设计非常优雅——将模态对齐问题简化为图匹配问题,天然支持结构和语义的双重评估
  • 可调 trade-off 的实用价值突出——金融领域可以加大 \(\beta_{\text{EI}}\) 严惩幻觉,临床领域可以加大 \(\beta_{\text{MI}}\) 确保信息完整性
  • planner-driven 扰动生成确保基准的多样性和可复现性——单次 LLM 调用生成 12 种扰动,比逐个生成更一致

局限与展望

  • Text2Graph 依赖 LLM 提取三元组,对复杂嵌套表格或非标准格式可能不够健壮
  • 评估成本取决于 LLM 调用次数,大规模使用时成本和延迟不可忽略
  • 仅评估了 GPT-5-nano 作为 backbone,换用开源模型后的效果有待验证
  • 对跨表格推理(需要联合多个表格的事实)尚未覆盖

相关工作与启发

  • vs TabXEval: TabXEval 有参考且相关性最高,但 tie ratio 过高导致判别精度不足;TabReX 无参考且判别更细粒度
  • vs QuestEval: 都是无参考方法,但 QuestEval 基于通用 QA 信号,对表格特有的结构变换(如行重排)过度惩罚;TabReX 的图对齐天然排除格式变化的影响
  • vs PARENT/BLEU: 这些指标在结构化输出评估中几乎无效,TabReX 代表了评估范式的根本转变

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 图对齐的无参考表格评估范式是全新思路,属性驱动评分机制设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ TabReX-Bench 规模大且设计严谨,对比基线全面,人类评估充分
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,但公式较多需要仔细阅读
  • 价值: ⭐⭐⭐⭐⭐ 对结构化生成评估领域有重要推动,框架设计通用可扩展

相关论文