跳转至

Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework

会议: ACL 2025
arXiv: 2412.16953
代码: http://llm-symbol.github.io/Aristotle
领域: LLM 推理
关键词: 逻辑推理, 符号推理, 反证法, Decompose-Search-Resolve, 符号表达式

一句话总结

提出 Aristotle 逻辑推理框架,将符号表达式和逻辑规则全面融入 Decompose-Search-Resolve 的每个阶段,通过逻辑分解器、搜索路由器和消解器三大组件实现逻辑完备的推理,在多个逻辑推理基准上以 GPT-4 平均提升 4.5%、GPT-4o 平均提升 5.4% 超越 SOTA。

研究背景与动机

  1. 领域现状:
  2. CoT、ToT、GoT 等推理方法已在一般推理任务上取得显著进展
  3. SymbCoT 将符号表达式引入 CoT 推理,达到了逻辑推理的 SOTA
  4. 然而,逻辑推理要求最严格的证据和逻辑严谨性,是 LLM 推理中最具挑战的任务之一

  5. 现有痛点:

  6. 分解阶段: LLM 依赖语言 token 关系而非逻辑结构分解问题,导致子问题断裂
  7. 搜索阶段: 现有路径搜索依赖不可靠的评估器选择节点,导致错误传播(搜索错误率 15.0%)
  8. 消解阶段: 用简单文本提示引导 LLM 解子问题,频繁产生逻辑错误(推理错误率 28.4%)
  9. 效率问题: 错误节点浪费计算资源,不可靠的评估器导致不必要的节点探索

  10. 核心矛盾:

  11. 通用推理方法(如 ToT)忽视逻辑任务的内在结构,未将逻辑规则有效融入 Decompose-Search-Resolve 框架
  12. 结果是既不高效也不准确

  13. 本文要解决什么?

  14. 如何在逻辑推理的分解、搜索、消解每个阶段都充分利用逻辑结构和符号规则
  15. 如何减少搜索错误和推理错误,同时提高效率

  16. 切入角度:

  17. 形式化逻辑方法论:用 Prolog 语法翻译、CNF 范式分解、反证法搜索、消解原理消解
  18. 将经典逻辑推理的整套方法论系统性地嵌入 LLM 推理框架

  19. 核心idea一句话:

  20. 将符号逻辑表达式和规则(翻译→CNF分解→反证法搜索→消解原理)完全集成到 LLM 推理的每个阶段

方法详解

整体框架

Aristotle 由四个模块组成: 1. Translator(翻译器): 将自然语言前提和问题翻译为 Prolog 符号格式 2. Decomposer(分解器): 将符号表达式规范化为 CNF(合取范式),消除量词 3. Search Router(搜索路由器): 基于反证法搜索互补子句 4. Resolver(消解器): 基于消解原理消除互补项,生成新子句

推理过程分三步:初始化 → 迭代搜索消解 → 得出结论

关键设计

  1. Logical Decomposer(逻辑分解器):
  2. 做什么: 将前提和查询通过规范化(Normalization)和 Skolemization 转换为 CNF 形式
  3. 核心思路: 例如 \(\forall x (P(x) \rightarrow Q(x))\) 被分解为 \(\neg P(x) \vee Q(x)\)
  4. 设计动机: CNF 简化了推理过程,使其更容易应用形式化消解规则

  5. Logical Search Router(逻辑搜索路由器):

  6. 做什么: 采用反证法(proof by contradiction),搜索与当前子句互补的前提子句
  7. 核心思路: 如当前子句含 \(P(x, \text{True})\),则搜索含 \(P(x, \text{False})\) 的前提子句
  8. 设计动机: 反证法直接搜索逻辑冲突,避免了依赖不可靠评估器的搜索错误;这是一个基于规则而非 LLM 的模块

  9. Logical Resolver(逻辑消解器):

  10. 做什么: 基于 Robinson 消解原理消除互补项,连接剩余项生成新子句
  11. 核心思路: \(C_{\text{current}} = P(x,T) \vee A\)\(C_{\text{complement}} = P(x,F) \vee B\)\(C_{\text{resolved}} = A \vee B\)
  12. 设计动机: 消解原理提供清晰简洁的指令,最小化推理错误

  13. 双路径推理(Dual-Path Reasoning):

  14. 做什么: 同时从 \(S_n\)\(\neg S_n\) 两条路径进行反证法推理
  15. 核心思路: 根据四种组合确定答案:True/False/Unknown/Self-Contradictory
  16. 设计动机: 单路径无法区分所有四种逻辑状态

损失函数 / 训练策略

  • 本文是 prompting 方法,不需要训练
  • 搜索路由器是基于规则的模块(非 LLM),其他模块通过 LLM in-context learning 实现
  • 最大迭代次数 \(I_{\text{max}}\) 控制推理深度

实验关键数据

主实验

在三个逻辑推理数据集上测试,使用 GPT-4 和 GPT-4o:

方法 ProntoQA ProofWriter LogicNLI 平均 (GPT-4)
CoT 98.9 68.1 51.0 72.6
CoT-SC 93.4 69.3 57.3 73.3
ToT 97.6 70.3 52.7 73.5
SymbCoT 99.6 82.5 59.0 80.4
Aristotle 99.6 86.8 68.3 84.9

GPT-4o 结果: | 方法 | ProntoQA | ProofWriter | LogicNLI | 平均 | |------|----------|-------------|----------|------| | SymbCoT | 99.4 | 82.3 | 58.7 | 80.1 | | Aristotle | 99.6 | 88.5 | 70.7 | 86.3 |

  • GPT-4 上平均提升 4.5%(vs SymbCoT),GPT-4o 上提升 5.4%(+6.2 on ProofWriter, +12.0 on LogicNLI)

跨模型泛化性(Claude-3.5-Sonnet / Llama-3.1-405B): | 模型 | ProntoQA | ProofWriter | LogicNLI | 平均 | |------|----------|-------------|----------|------| | Claude + Aristotle | 99.0 | 86.5 | 61.3 | 82.3 (+5.3) | | Llama + Aristotle | 98.4 | 89.5 | 69.0 | 85.6 (+12.1) |

  • Llama-3.1-405B 上 ProofWriter 提升 20.0%,LogicNLI 提升 8.7%

关键发现

  1. 越复杂的逻辑场景,提升越大: ProntoQA 简单场景几乎无提升,LogicNLI 复杂场景提升最显著(6.3-12.0%)
  2. 搜索路由器最关键: 消融实验中,去除搜索路由器在 ProofWriter 上下降 50.8%,LogicNLI 下降 31.6%
  3. 分解器在复杂场景更重要: LogicNLI 包含 "either...or..." 等复杂逻辑结构,依赖分解器
  4. 框架跨模型泛化: 在 GPT-4、GPT-4o、Claude-3.5、Llama-405B 上均有效

亮点与洞察

  • 经典逻辑方法论的现代复兴: 将消解原理、CNF 转换、反证法等经典形式化逻辑方法与 LLM 结合
  • 接近逻辑完备: 覆盖了 True/False/Unknown/Self-Contradictory 四种答案类型
  • 搜索路由器是基于规则的: 非 LLM 生成,避免了 LLM 搜索的不可靠性
  • 双路径反证法设计巧妙: 一条路径无法区分所有四种逻辑状态,双路径+公式 (1) 优雅解决
  • 错误类型分析深刻: 28.4% 推理错误 + 15.0% 搜索错误的定量分析很有说服力

局限性 / 可改进方向

  1. 依赖 LLM 完成翻译/分解/消解,这些环节仍可能引入错误
  2. 仅处理命题逻辑和一阶逻辑的子集,对更复杂的逻辑形式(如模态逻辑、时态逻辑)适用性未知
  3. 反证法的最大迭代次数 \(I_{\text{max}}\) 需要预设,可能影响复杂推理链的覆盖
  4. Prolog 翻译步骤需要 LLM 具有较强的符号理解能力,小模型上效果未验证
  5. 计算成本未详细报告,双路径推理可能导致 API 调用翻倍

相关工作与启发

  • SymbCoT (Xu et al., 2024): 将符号翻译和逻辑消解交给 LLM 本身处理,本文进一步系统化
  • ToT (Yao et al., 2023): 树搜索通用推理方法,但在逻辑推理上不如专门设计的方法
  • Logic-LM (Pan et al., 2023): 用外部逻辑求解器,可能丢失信息
  • 启发: 任务特定的结构化推理框架(如逻辑推理中的消解原理)往往优于通用搜索框架

评分

维度 分数 (1-10)
创新性 8
技术深度 8
实验充分性 8
写作质量 8
实用价值 7
总分 7.8