Agentified Assessment of Logical Reasoning Agents¶

会议: ICLR2026
arXiv: 2603.02788
代码: HuggingFace数据集
领域: llm_reasoning
关键词: 逻辑推理评测, Agent-to-Agent评估, 一阶逻辑, 自动形式化, SMT求解

一句话总结¶

提出基于Agent的评测框架(AAA)，用assessor agent标准化地评估逻辑推理agent，并以自动形式化agent（NL→Z3Py+SMT求解）在清洗后的FOLIO上达到86.70%准确率，大幅超过CoT基线73.89%。

背景与动机¶

评估推理agent时，运行失败(超时/解析错误)与推理错误常被混淆在单一准确率数字中
传统评测harness将benchmark逻辑与agent实现紧耦合，集成成本O(n)随benchmark数线性增长
FOLIO数据集存在潜在标签错误和NL-FOL翻译质量问题，需要系统化清洗
需要一个可复现、可审计、对执行失败鲁棒的评测框架
Agent评测缺乏标准化接口，不同agent难以即插即用地参与多个benchmark
一阶逻辑推理是LLM的重要能力，但现有评测方法不够可靠

方法详解¶

Agentified Agent Assessment (AAA) 框架：将评测逻辑封装为assessor agent，与被测agent通过标准A2A接口通信。Assessor负责下发任务、执行预算控制(超时/重试)、输出解析、结构化失败类型记录(Timeout/RuntimeError/ParseError)，并生成机器可读的评测报告。集成成本从O(n)降到O(1)。

FOLIO数据清洗流水线：(1) 用Vampire定理证明器对FOL表示做形式化验证，通过可满足性检查判断True/False/Uncertain标签；(2) 当验证结果与标签冲突时，用critique agent诊断翻译错误，refiner agent执行修复，迭代直到标签一致；(3) 超过阈值仍未解决则标记人工审查。训练集标签错误率3.8%，验证集1.5%。

自动形式化Agent：两阶段流水线——Stage 1: LLM将自然语言前提/结论生成Z3Py代码；Stage 2: 沙箱执行(60s超时)，通过可满足性检查判断逻辑蕴含关系。包含最多3次自修复循环，遇语法错误时提取错误信息做定向修复。

实验关键数据¶

方法	True准确率	False准确率	Uncertain准确率	总体准确率
Chain-of-Thought	89.04%	44.26%	84.06%	73.89%
Auto-formalization	90.41%	77.05%	91.30%	86.70%

清洗后FOLIO验证集203例；backbone: Gemini 2.5 Flash, T=0.0
False类别提升最大(+32.79%)，说明形式化验证在矛盾检测上优势显著
Uncertain类别也有明显提升(+7.24%)，solver擅长处理逻辑不确定性

亮点¶

AAA框架将评测本身agent化，实现即插即用评估，集成成本O(1)
数据清洗流水线系统化修复FOLIO标签错误，提高benchmark可靠性
结构化失败类型记录使评测结果可审计、可追溯
自动形式化+SMT求解在False/Uncertain类别上优势显著

局限性 / 可改进方向¶

仅在单一数据集(FOLIO 203例验证集)上验证，规模较小
仅比较了CoT和Auto-formalization两种agent，缺乏更多方法对比
数据清洗流水线仍有30.4%训练样本标记为"problematic"未解决
未探索更丰富的tool-using agent场景
A2A接口的实际互操作性和开销未详细分析

与相关工作的对比¶

相比传统静态评测harness，AAA解耦评估逻辑与agent实现
基于AgentBeats框架和A2A协议，统一agent间通信标准
FOLIO清洗工作使用Vampire定理证明器做形式化验证，比人工标注更可靠
自动形式化思路与NL→逻辑程序的经典方法一脉相承，但结合了LLM生成和自修复

评分¶

新颖性: ⭐⭐⭐ (AAA框架概念新颖，但实际技术较简单)
实验充分度: ⭐⭐ (单数据集、少对比方法)
写作质量: ⭐⭐⭐⭐ (清晰规范)
价值: ⭐⭐⭐ (评测范式有启发性)