Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning¶
会议: ACL 2025
arXiv: 2502.11799
代码: https://github.com/Peiying-Yu/Table-Critic
领域: LLM Agent
关键词: table reasoning, multi-agent framework, self-evolving template tree, collaborative criticism, iterative refinement
一句话总结¶
提出 Table-Critic 多智能体框架,通过 Judge-Critic-Refiner-Curator 四个专门化 Agent 的协作批评与迭代精化,配合自进化模板树累积批评知识,在 WikiTQ 和 TabFact 上分别实现 73.7% 和 91.7% 的准确率,大幅超越现有方法。
研究背景与动机¶
- 领域现状:
- LLM 在各类推理任务中表现出色,但在表格推理任务上仍面临挑战,尤其是多步推理中的一致性问题
- 现有方法通过分解策略(SQL 子程序、表格分区、动态操作链)取得了进展
-
代表性方法:Binder 将问题分解为可执行 SQL/Python、Dater 做子表分解、Chain-of-Table 生成中间表格
-
现有痛点:
- 分解方法缺乏有效的中间步骤错误检测和纠正机制,导致错误级联传播
- LLM 的自我反思能力不够可靠——要么为之前的错误合理化辩护,要么过度批评正确步骤
-
Critic-CoT 虽引入了自我反思,但纠错率(+5.6%)被高降质率(-4.9%)部分抵消,净收益仅 +0.7%
-
核心矛盾:
- 需要在多步推理中及时发现并修正错误,但 LLM 自身的反思能力不够稳定
-
错误类型多样且不可预测,仅靠模型内在知识难以全面覆盖
-
本文要解决什么?
- 如何在保持纠错能力的同时最小化对正确推理的干扰
-
如何系统性地积累和组织批评知识以应对多样化的错误类型
-
切入角度:
- 将复杂的推理修正任务分解为四个专门化 Agent 的协作
-
引入自进化模板树作为经验驱动的批评知识库
-
核心idea一句话:
- 用四个专门化 Agent 模拟人类的"发现错误→诊断→修正→总结经验"过程,在批评知识上持续进化。
方法详解¶
整体框架¶
Table-Critic 基于 Chain-of-Table 生成初始推理链,然后通过四个 Agent 迭代精化: 1. Judge 检测错误 → 2. Critic 生成批评建议 → 3. Refiner 修正推理 → 4. Curator 蒸馏经验模板 迭代直至 Judge 判定正确或达到最大轮数 K=5。
关键设计¶
- Judge Agent(错误检测):
- 做什么: 分析推理链的每个步骤,检测潜在错误并确定错误类型;根据错误类型在模板树中路由到合适的批评模板
- 核心思路: 输出三个元素——错误分析 E、整体判定 P ∈ {Correct, Incorrect}、模板树路由路径 R
-
设计动机: 先判后治,为后续 Critic 提供精准的方向指引;模板路由机制让批评有据可依
-
Critic Agent(批评生成):
- 做什么: 在模板指导下定位第一个错误步骤,分析错误细节,生成具体的修改建议
- 核心思路: 仅聚焦于第一个错误步骤(而非所有错误),避免级联修改引入新错误
-
设计动机: LLM 在识别和修正"第一个"错误时最为擅长,后续步骤的修正往往不可靠
-
Refiner Agent(推理修正):
- 做什么: 接收批评建议和截断到错误步骤的部分推理链,重新生成剩余步骤
- 核心思路: 只给 Refiner 看到错误步骤及之前的正确部分,避免被后续错误推理偏置
-
设计动机: 截断策略强制 Refiner 从批评的角度重新推理,而非简单修补
-
Curator Agent + Self-evolving Template Tree(经验学习):
- 做什么: 在整个修正流程完成后(Judge 判定最终链正确时),从修正历史中蒸馏批评模板,更新模板树
- 核心思路: 模板树支持两种扩展——垂直扩展(细分现有错误类别)和水平扩展(添加新错误类别)
- 设计动机: 错误类型是开放集合,静态模板无法全面覆盖;自进化机制让系统持续学习新的错误模式
- 初始仅有 2 个基础模板,通过自进化机制自主扩展
损失函数 / 训练策略¶
- 无需额外训练: 完全基于 prompt engineering 的多 agent 框架
- 最大迭代次数 K=5,使用 temperature 0.0 的贪心解码
- 在 Qwen2.5-72B、LLaMA3.3-70B、GPT-4o-mini 三个模型上验证
实验关键数据¶
主实验¶
- WikiTQ 平均准确率: 73.7%(比 Critic-CoT 的 67.4% 提升 +6.3,比 Chain-of-Table 的 66.0% 提升 +7.7)
- TabFact 平均准确率: 91.7%(比 Critic-CoT 的 88.2% 提升 +3.5,比 Chain-of-Table 的 89.5% 提升 +2.2)
- Qwen2.5-72B 上的最佳表现: WikiTQ 77.2%(+8.2 vs Chain-of-Table)、TabFact 92.6%(+2.6)
- 在三个 LLM 上效果一致,展现了框架的模型无关性
消融实验 / 关键发现¶
纠错能力分析(最核心的发现): - Table-Critic on WikiTQ: 纠错率 Δ^{i→c} = +9.6%,降质率 Δ^{c→i} = -0.7%,净收益 +8.9% - Critic-CoT on WikiTQ: 纠错率 +5.6%,降质率 -4.9%,净收益仅 +0.7% - TabFact 类似模式: Table-Critic 净收益 +2.9% vs Critic-CoT +0.1% - 关键洞察: Table-Critic 的降质率极低(-0.7%/-0.5%),说明自进化模板树有效保护了正确推理
多轮机制分析: - WikiTQ 上前 3 轮准确率从 67.6% 急升至 76.5%,第 6 轮后稳定在 ~77% - TabFact 上类似趋势,约 5 轮稳定在 ~92% - 实际设置 K=5 是合理的平衡点
计算成本分析: - Table-Critic 计算成本约为 Chain-of-Table 的 1.8-2.2 倍 - 但 Chain-of-Table 即使使用 15 次 Self-Consistency 采样(更高计算成本),WikiTQ 也仅达 70.0%(vs 77.2%),TabFact 仅 90.1%(vs 92.6%)
自进化模板树消融: - 去除自进化机制后 WikiTQ 下降 1.1%(77.2→76.1),TabFact 下降 1.8%(92.6→90.8) - 说明动态模板扩展对多样化错误类型的处理至关重要
亮点与洞察¶
- 降质率的控制: 这是本文最强的卖点——纠错的同时几乎不破坏正确答案(WikiTQ 降质仅 -0.7%,远优于 Critic-CoT 的 -4.9%)
- "聚焦第一个错误"的策略: 巧妙利用了 LLM 在识别首个错误时最准确的特性,通过多轮迭代逐个解决
- 自进化模板树: 将"做过的错题"转化为"纠错指南",是一种轻量级的经验学习机制
- 计算效率优势: 1.8x 的成本带来 7+ 点的准确率提升,比暴力 majority voting 高效得多
局限性 / 可改进方向¶
- 目前仅针对文本表格推理,未扩展到多模态场景(图表+表格)
- 模板树的质量依赖于 Curator Agent 的总结能力,可能存在错误模板
- 最大迭代次数 K=5 是超参数,不同任务可能需要不同设置
- 四个 Agent 都用同一个底座 LLM,Agent 之间的能力差异仅靠 prompt 区分
- 未考虑表格推理中的跨表、多表关联等更复杂场景
相关工作与启发¶
- Binder → Dater → Chain-of-Table: 分解策略的逐步演化,但都缺乏纠错机制
- Critic-CoT: 引入自我反思但不够稳定,Table-Critic 通过多 Agent 协作和模板树解决了稳定性问题
- Self-refine (Madaan et al., 2023): LLM 自我反思存在固有局限,多 Agent 分工是更好的解决方案
- 启发: "专人专事"的 Agent 分工 + 动态知识积累是超越单一模型自反思的关键路径
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐