跳转至

Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning

会议: ACL 2025
arXiv: 2502.11799
代码: https://github.com/Peiying-Yu/Table-Critic
领域: LLM Agent
关键词: table reasoning, multi-agent framework, self-evolving template tree, collaborative criticism, iterative refinement

一句话总结

提出 Table-Critic 多智能体框架,通过 Judge-Critic-Refiner-Curator 四个专门化 Agent 的协作批评与迭代精化,配合自进化模板树累积批评知识,在 WikiTQ 和 TabFact 上分别实现 73.7% 和 91.7% 的准确率,大幅超越现有方法。

研究背景与动机

  1. 领域现状:
  2. LLM 在各类推理任务中表现出色,但在表格推理任务上仍面临挑战,尤其是多步推理中的一致性问题
  3. 现有方法通过分解策略(SQL 子程序、表格分区、动态操作链)取得了进展
  4. 代表性方法:Binder 将问题分解为可执行 SQL/Python、Dater 做子表分解、Chain-of-Table 生成中间表格

  5. 现有痛点:

  6. 分解方法缺乏有效的中间步骤错误检测和纠正机制,导致错误级联传播
  7. LLM 的自我反思能力不够可靠——要么为之前的错误合理化辩护,要么过度批评正确步骤
  8. Critic-CoT 虽引入了自我反思,但纠错率(+5.6%)被高降质率(-4.9%)部分抵消,净收益仅 +0.7%

  9. 核心矛盾:

  10. 需要在多步推理中及时发现并修正错误,但 LLM 自身的反思能力不够稳定
  11. 错误类型多样且不可预测,仅靠模型内在知识难以全面覆盖

  12. 本文要解决什么?

  13. 如何在保持纠错能力的同时最小化对正确推理的干扰
  14. 如何系统性地积累和组织批评知识以应对多样化的错误类型

  15. 切入角度:

  16. 将复杂的推理修正任务分解为四个专门化 Agent 的协作
  17. 引入自进化模板树作为经验驱动的批评知识库

  18. 核心idea一句话:

  19. 用四个专门化 Agent 模拟人类的"发现错误→诊断→修正→总结经验"过程,在批评知识上持续进化。

方法详解

整体框架

Table-Critic 基于 Chain-of-Table 生成初始推理链,然后通过四个 Agent 迭代精化: 1. Judge 检测错误 → 2. Critic 生成批评建议 → 3. Refiner 修正推理 → 4. Curator 蒸馏经验模板 迭代直至 Judge 判定正确或达到最大轮数 K=5。

关键设计

  1. Judge Agent(错误检测):
  2. 做什么: 分析推理链的每个步骤,检测潜在错误并确定错误类型;根据错误类型在模板树中路由到合适的批评模板
  3. 核心思路: 输出三个元素——错误分析 E、整体判定 P ∈ {Correct, Incorrect}、模板树路由路径 R
  4. 设计动机: 先判后治,为后续 Critic 提供精准的方向指引;模板路由机制让批评有据可依

  5. Critic Agent(批评生成):

  6. 做什么: 在模板指导下定位第一个错误步骤,分析错误细节,生成具体的修改建议
  7. 核心思路: 仅聚焦于第一个错误步骤(而非所有错误),避免级联修改引入新错误
  8. 设计动机: LLM 在识别和修正"第一个"错误时最为擅长,后续步骤的修正往往不可靠

  9. Refiner Agent(推理修正):

  10. 做什么: 接收批评建议和截断到错误步骤的部分推理链,重新生成剩余步骤
  11. 核心思路: 只给 Refiner 看到错误步骤及之前的正确部分,避免被后续错误推理偏置
  12. 设计动机: 截断策略强制 Refiner 从批评的角度重新推理,而非简单修补

  13. Curator Agent + Self-evolving Template Tree(经验学习):

  14. 做什么: 在整个修正流程完成后(Judge 判定最终链正确时),从修正历史中蒸馏批评模板,更新模板树
  15. 核心思路: 模板树支持两种扩展——垂直扩展(细分现有错误类别)和水平扩展(添加新错误类别)
  16. 设计动机: 错误类型是开放集合,静态模板无法全面覆盖;自进化机制让系统持续学习新的错误模式
  17. 初始仅有 2 个基础模板,通过自进化机制自主扩展

损失函数 / 训练策略

  • 无需额外训练: 完全基于 prompt engineering 的多 agent 框架
  • 最大迭代次数 K=5,使用 temperature 0.0 的贪心解码
  • 在 Qwen2.5-72B、LLaMA3.3-70B、GPT-4o-mini 三个模型上验证

实验关键数据

主实验

  • WikiTQ 平均准确率: 73.7%(比 Critic-CoT 的 67.4% 提升 +6.3,比 Chain-of-Table 的 66.0% 提升 +7.7
  • TabFact 平均准确率: 91.7%(比 Critic-CoT 的 88.2% 提升 +3.5,比 Chain-of-Table 的 89.5% 提升 +2.2
  • Qwen2.5-72B 上的最佳表现: WikiTQ 77.2%(+8.2 vs Chain-of-Table)、TabFact 92.6%(+2.6)
  • 在三个 LLM 上效果一致,展现了框架的模型无关性

消融实验 / 关键发现

纠错能力分析(最核心的发现): - Table-Critic on WikiTQ: 纠错率 Δ^{i→c} = +9.6%,降质率 Δ^{c→i} = -0.7%,净收益 +8.9% - Critic-CoT on WikiTQ: 纠错率 +5.6%,降质率 -4.9%,净收益仅 +0.7% - TabFact 类似模式: Table-Critic 净收益 +2.9% vs Critic-CoT +0.1% - 关键洞察: Table-Critic 的降质率极低(-0.7%/-0.5%),说明自进化模板树有效保护了正确推理

多轮机制分析: - WikiTQ 上前 3 轮准确率从 67.6% 急升至 76.5%,第 6 轮后稳定在 ~77% - TabFact 上类似趋势,约 5 轮稳定在 ~92% - 实际设置 K=5 是合理的平衡点

计算成本分析: - Table-Critic 计算成本约为 Chain-of-Table 的 1.8-2.2 倍 - 但 Chain-of-Table 即使使用 15 次 Self-Consistency 采样(更高计算成本),WikiTQ 也仅达 70.0%(vs 77.2%),TabFact 仅 90.1%(vs 92.6%)

自进化模板树消融: - 去除自进化机制后 WikiTQ 下降 1.1%(77.2→76.1),TabFact 下降 1.8%(92.6→90.8) - 说明动态模板扩展对多样化错误类型的处理至关重要

亮点与洞察

  • 降质率的控制: 这是本文最强的卖点——纠错的同时几乎不破坏正确答案(WikiTQ 降质仅 -0.7%,远优于 Critic-CoT 的 -4.9%)
  • "聚焦第一个错误"的策略: 巧妙利用了 LLM 在识别首个错误时最准确的特性,通过多轮迭代逐个解决
  • 自进化模板树: 将"做过的错题"转化为"纠错指南",是一种轻量级的经验学习机制
  • 计算效率优势: 1.8x 的成本带来 7+ 点的准确率提升,比暴力 majority voting 高效得多

局限性 / 可改进方向

  • 目前仅针对文本表格推理,未扩展到多模态场景(图表+表格)
  • 模板树的质量依赖于 Curator Agent 的总结能力,可能存在错误模板
  • 最大迭代次数 K=5 是超参数,不同任务可能需要不同设置
  • 四个 Agent 都用同一个底座 LLM,Agent 之间的能力差异仅靠 prompt 区分
  • 未考虑表格推理中的跨表、多表关联等更复杂场景

相关工作与启发

  • Binder → Dater → Chain-of-Table: 分解策略的逐步演化,但都缺乏纠错机制
  • Critic-CoT: 引入自我反思但不够稳定,Table-Critic 通过多 Agent 协作和模板树解决了稳定性问题
  • Self-refine (Madaan et al., 2023): LLM 自我反思存在固有局限,多 Agent 分工是更好的解决方案
  • 启发: "专人专事"的 Agent 分工 + 动态知识积累是超越单一模型自反思的关键路径

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐