Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning¶

会议: ACL 2025
arXiv: 2502.11799
代码: https://github.com/Peiying-Yu/Table-Critic
领域: LLM Agent
关键词: table reasoning, multi-agent framework, self-evolving template tree, collaborative criticism, iterative refinement

一句话总结¶

提出 Table-Critic 多智能体框架，通过 Judge-Critic-Refiner-Curator 四个专门化 Agent 的协作批评与迭代精化，配合自进化模板树累积批评知识，在 WikiTQ 和 TabFact 上分别实现 73.7% 和 91.7% 的准确率，大幅超越现有方法。

研究背景与动机¶

领域现状:
LLM 在各类推理任务中表现出色，但在表格推理任务上仍面临挑战，尤其是多步推理中的一致性问题
现有方法通过分解策略（SQL 子程序、表格分区、动态操作链）取得了进展
代表性方法：Binder 将问题分解为可执行 SQL/Python、Dater 做子表分解、Chain-of-Table 生成中间表格
现有痛点:
分解方法缺乏有效的中间步骤错误检测和纠正机制，导致错误级联传播
LLM 的自我反思能力不够可靠——要么为之前的错误合理化辩护，要么过度批评正确步骤
Critic-CoT 虽引入了自我反思，但纠错率（+5.6%）被高降质率（-4.9%）部分抵消，净收益仅 +0.7%
核心矛盾:
需要在多步推理中及时发现并修正错误，但 LLM 自身的反思能力不够稳定
错误类型多样且不可预测，仅靠模型内在知识难以全面覆盖
本文要解决什么？
如何在保持纠错能力的同时最小化对正确推理的干扰
如何系统性地积累和组织批评知识以应对多样化的错误类型
切入角度:
将复杂的推理修正任务分解为四个专门化 Agent 的协作
引入自进化模板树作为经验驱动的批评知识库
核心idea一句话:
用四个专门化 Agent 模拟人类的"发现错误→诊断→修正→总结经验"过程，在批评知识上持续进化。

方法详解¶

整体框架¶

Table-Critic 基于 Chain-of-Table 生成初始推理链，然后通过四个 Agent 迭代精化： 1. Judge 检测错误 → 2. Critic 生成批评建议 → 3. Refiner 修正推理 → 4. Curator 蒸馏经验模板迭代直至 Judge 判定正确或达到最大轮数 K=5。

关键设计¶

Judge Agent（错误检测）:
做什么: 分析推理链的每个步骤，检测潜在错误并确定错误类型；根据错误类型在模板树中路由到合适的批评模板
核心思路: 输出三个元素——错误分析 E、整体判定 P ∈ {Correct, Incorrect}、模板树路由路径 R
设计动机: 先判后治，为后续 Critic 提供精准的方向指引；模板路由机制让批评有据可依
Critic Agent（批评生成）:
做什么: 在模板指导下定位第一个错误步骤，分析错误细节，生成具体的修改建议
核心思路: 仅聚焦于第一个错误步骤（而非所有错误），避免级联修改引入新错误
设计动机: LLM 在识别和修正"第一个"错误时最为擅长，后续步骤的修正往往不可靠
Refiner Agent（推理修正）:
做什么: 接收批评建议和截断到错误步骤的部分推理链，重新生成剩余步骤
核心思路: 只给 Refiner 看到错误步骤及之前的正确部分，避免被后续错误推理偏置
设计动机: 截断策略强制 Refiner 从批评的角度重新推理，而非简单修补
Curator Agent + Self-evolving Template Tree（经验学习）:
做什么: 在整个修正流程完成后（Judge 判定最终链正确时），从修正历史中蒸馏批评模板，更新模板树
核心思路: 模板树支持两种扩展——垂直扩展（细分现有错误类别）和水平扩展（添加新错误类别）
设计动机: 错误类型是开放集合，静态模板无法全面覆盖；自进化机制让系统持续学习新的错误模式
初始仅有 2 个基础模板，通过自进化机制自主扩展

损失函数 / 训练策略¶

无需额外训练: 完全基于 prompt engineering 的多 agent 框架
最大迭代次数 K=5，使用 temperature 0.0 的贪心解码
在 Qwen2.5-72B、LLaMA3.3-70B、GPT-4o-mini 三个模型上验证

实验关键数据¶

主实验¶

WikiTQ 平均准确率: 73.7%（比 Critic-CoT 的 67.4% 提升 +6.3，比 Chain-of-Table 的 66.0% 提升 +7.7）
TabFact 平均准确率: 91.7%（比 Critic-CoT 的 88.2% 提升 +3.5，比 Chain-of-Table 的 89.5% 提升 +2.2）
Qwen2.5-72B 上的最佳表现: WikiTQ 77.2%（+8.2 vs Chain-of-Table）、TabFact 92.6%（+2.6）
在三个 LLM 上效果一致，展现了框架的模型无关性

消融实验 / 关键发现¶

纠错能力分析（最核心的发现）: - Table-Critic on WikiTQ: 纠错率 Δ^{i→c} = +9.6%，降质率 Δ^{c→i} = -0.7%，净收益 +8.9% - Critic-CoT on WikiTQ: 纠错率 +5.6%，降质率 -4.9%，净收益仅 +0.7% - TabFact 类似模式: Table-Critic 净收益 +2.9% vs Critic-CoT +0.1% - 关键洞察: Table-Critic 的降质率极低（-0.7%/-0.5%），说明自进化模板树有效保护了正确推理

多轮机制分析: - WikiTQ 上前 3 轮准确率从 67.6% 急升至 76.5%，第 6 轮后稳定在 ~77% - TabFact 上类似趋势，约 5 轮稳定在 ~92% - 实际设置 K=5 是合理的平衡点

计算成本分析: - Table-Critic 计算成本约为 Chain-of-Table 的 1.8-2.2 倍 - 但 Chain-of-Table 即使使用 15 次 Self-Consistency 采样（更高计算成本），WikiTQ 也仅达 70.0%（vs 77.2%），TabFact 仅 90.1%（vs 92.6%）

自进化模板树消融: - 去除自进化机制后 WikiTQ 下降 1.1%（77.2→76.1），TabFact 下降 1.8%（92.6→90.8） - 说明动态模板扩展对多样化错误类型的处理至关重要

亮点与洞察¶

降质率的控制: 这是本文最强的卖点——纠错的同时几乎不破坏正确答案（WikiTQ 降质仅 -0.7%，远优于 Critic-CoT 的 -4.9%）
"聚焦第一个错误"的策略: 巧妙利用了 LLM 在识别首个错误时最准确的特性，通过多轮迭代逐个解决
自进化模板树: 将"做过的错题"转化为"纠错指南"，是一种轻量级的经验学习机制
计算效率优势: 1.8x 的成本带来 7+ 点的准确率提升，比暴力 majority voting 高效得多

局限性 / 可改进方向¶

目前仅针对文本表格推理，未扩展到多模态场景（图表+表格）
模板树的质量依赖于 Curator Agent 的总结能力，可能存在错误模板
最大迭代次数 K=5 是超参数，不同任务可能需要不同设置
四个 Agent 都用同一个底座 LLM，Agent 之间的能力差异仅靠 prompt 区分
未考虑表格推理中的跨表、多表关联等更复杂场景

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐