RePanda: Pandas-powered Tabular Verification and Reasoning¶

会议: ACL 2025
arXiv: 2503.11921
代码: datasets/AtoosaChegini/PanTabFact
作者: Atoosa Malemir Chegini, Keivan Rezaei, Hamid Eghbalzadeh, Soheil Feizi
机构: University of Maryland, AI at Meta
领域: 表格推理 / 事实验证
关键词: 表格事实验证, pandas查询, 可解释推理, 知识蒸馏, 执行型推理, OOD泛化

一句话总结¶

提出 RePanda，将自然语言声明翻译为可执行的 pandas 查询来实现表格事实验证，在 TabFact 上达到 84.09% 准确率，在 OOD 的 WikiFact 上无需额外微调达 84.72%，同时以仅 7B 参数的模型逼近 671B DeepSeek-Chat 的零样本性能，并扩展至表格问答任务取得 75.1% 准确率。

研究背景与动机¶

领域现状：表格事实验证要求模型在结构化数据上进行数值推理、过滤和比较。现有方法如 TAPAS、TAPEX、PASTA 通过表格感知预训练提升表格理解能力，但存在两大核心问题。

核心问题： - 结构理解不足：LLM 以顺序文本方式预训练，将表格展平为序列后会丢失行列间的结构关系；TAPAS/TAPEX 虽有表格位置编码，但在聚合、多行比较等复杂操作上仍力不从心 - 可解释性缺失：现有方法作为黑盒分类器，仅输出 True/False 而无法展示推理过程，在法律审计、金融等高风险场景下无法验证决策依据

关键洞察：pandas 查询天然为表格操作设计（过滤、计数、聚合等），将声明翻译为 pandas 查询既能提供透明推理步骤，又能通过执行获得可验证的结果

方法详解¶

整体框架¶

RePanda 的核心思路：将事实验证重新定义为结构化表示学习任务——模型学会生成可执行的 pandas 查询而非直接分类。

形式化定义：给定表格 𝒯 和声明 s，模型 f_θ 输出 pandas 查询 q_s = f_θ(s, 𝒯)，执行 q_s 在 𝒯 上产生验证结果。

数据集构建¶

PanTabFact（事实验证数据集）： - 基于 TabFact 训练集构建 - 使用 DeepSeek-Chat（671B）为每个声明-表格对生成对应的 pandas 查询 - 每个查询编码逻辑操作步骤（过滤、聚合、比较等）

PanWiki（问答数据集）： - 基于 WikiTableQuestions 构建 - 将每个问题转化为 pandas 查询，执行后获得答案 - 仅 1200 个训练样本

错误纠正流水线¶

三阶段自动纠正确保数据质量：

逻辑纠正：验证 pandas 查询执行结果是否与期望答案一致；不一致则将原始查询和期望结果交给模型重新生成（仅用于训练数据创建）
语法纠正：迭代修复运行时错误——将错误信息反馈给模型进行修正（训练和推理时均使用）
过滤：移除执行失败或结果不匹配的样本

模型训练¶

基础模型：DeepSeek-coder-7B-instruct-v1.5
训练方式：自回归生成 pandas 查询
损失函数：负对数似然 $$\mathcal{L} = -\sum_{t=1}^{T} \log P(q_t | q_{<t}, s, \mathcal{T}; \theta)$$
训练细节：AdamW 优化器，学习率 2e-4，cosine 调度，4 epochs，batch size 4
事实验证查询输出布尔值，问答查询输出具体答案

OOD 泛化设计¶

构建 WikiFact：将 WikiTableQuestions 的问答对转化为事实验证声明
不做额外微调，直接用 PanTabFact 训练的模型进行评估
测试跨表格结构和领域迁移的能力

实验¶

主实验结果¶

In-Distribution（TabFact 测试集，Table 1）：

方法	准确率
RePanda（事实验证）	84.09%
Finetuned-Direct	67.85%
ZeroShot-Pandas	51.82%
ZeroShot-Direct	50.76%

RePanda 比直接分类微调高 16.24%，比零样本高 33.33%。

OOD 泛化（WikiFact，Table 2）：

方法	准确率
RePanda（事实验证）	84.72%
Finetuned-Direct	74.10%
ZeroShot-Pandas	59.92%
ZeroShot-Direct	53.20%

无需额外微调，OOD 准确率（84.72%）甚至略高于 in-distribution（84.09%）。

与 SOTA 方法对比（WikiFact 平衡数据集，Table 3）¶

在 300 原始（全正例）+ 300 修改（全反例）的平衡数据上：

方法	All False	All True	Overall
RePanda	88.33%	85.67%	87.00%
TAPEX	41.00%	59.33%	50.16%
TAPAS	55.00%	65.33%	60.16%
PASTA	47.67%	51.67%	49.67%

RePanda 整体超出 TAPAS 约 27 个百分点，证明真正学到了判别能力而非简单偏向正类。

与 DeepSeek-Chat (671B) 零样本对比¶

数据集	RePanda (7B)	DeepSeek-Chat (671B)
TabFact	84.09%	82.62%
WikiFact	84.72%	85.39%

7B 模型在 TabFact 上甚至超过 671B 模型，成功实现结构化推理能力的知识蒸馏。

表格问答结果（WikiTableQuestions, Table 4）¶

方法	准确率	训练数据量
TabLaP	76.6%	大规模
SynTQA (GPT)	74.4%	大规模
RePanda	75.1%	1,200
Mix SC	73.6%	大规模
Chain-of-Table	67.31%	大规模

仅用 1200 个训练样本即达到了与 SOTA 方法竞争的准确率。

消融实验：错误纠正的影响（Table 5）¶

数据集	无纠正	有纠正	提升
TabFact	78.02%	84.09%	+6.07%
WikiFact	74.43%	84.72%	+10.29%
WQA	67.59%	75.1%	+7.51%

错误纠正在所有任务上都带来显著提升，OOD 场景提升最大（+10.29%）。

亮点与洞察¶

执行型推理的可解释性优势：生成的 pandas 查询本身就是推理过程，用户可逐步验证逻辑是否正确——这在黑盒模型中不可能实现
惊人的 OOD 泛化能力：在完全未见过的 WikiFact 表格上达到 84.72%，证明模型学到的是通用的表格推理模式而非特定数据分布
高效知识蒸馏：7B 模型通过结构化推理学习成功逼近甚至超越 671B 模型，说明中间表示（pandas 查询）是比直接分类更高效的知识传递媒介
极低数据需求：表格 QA 仅需 1200 样本即达 SOTA 水平，显示执行框架对训练数据的利用效率极高
自动错误纠正的重要性：推理时的语法纠正（4 轮迭代修复）贡献了约 6-10 个百分点的性能提升

局限性¶

仅支持单表推理：所有实验基于单表格场景，未验证多表连接、跨表推理等更复杂的结构化推理能力
依赖 DeepSeek-Chat 生成训练数据：PanTabFact 和 PanWiki 的查询均由 671B 模型生成，数据构建成本较高
语法纠正增加推理延迟：推理时最多需 4 轮迭代修复语法错误，对延迟敏感的在线场景可能不适用
pandas 查询的表达力边界：极端复杂的推理（涉及统计建模、模式发现等）可能超出 pandas 查询的表达能力
评估范围有限：仅在 TabFact 和 WikiTableQuestions 两个基准上验证，更广泛的表格推理基准（如 HybridQA、SQA 等）未测试

评分¶

⭐⭐⭐⭐ — 方法清晰实用、可解释性强、OOD 泛化能力出色、数据效率极高，但仅支持单表格推理是明显短板，且错误纠正的多轮迭代增加了推理成本。