Are Language Models Efficient Reasoners? A Perspective from Logic Programming¶
会议: NeurIPS 2025 arXiv: 2510.25626 代码: GitHub 领域: LLM推理 / 形式化评估 关键词: reasoning efficiency, logic programming, irrelevant information, proof length, deductive reasoning
一句话总结¶
从逻辑编程角度提出评估 LLM 推理效率(而非仅正确性)的框架——通过 verbalized logic program 将自然语言证明映射到逻辑程序证明,发现当前 LLM 在含无关公理的数学题中不仅准确率下降,且推理过程严重低效(超过一半的推理步骤是不必要的)。
研究背景与动机¶
- 领域现状:LLM 推理评估主要关注最终答案的正确性,忽略了推理过程的效率。近期推理模型(如 o1、DeepSeek-R1)经常生成远超必要的推理步骤。
- 现有痛点:(1) 用 token 数量度量效率混淆了"不必要的推理步骤"和"冗长的自然语言表述"两个来源;(2) 缺乏形式化框架定义"高效推理";(3) 现有数据集(GSM8k-IC 等)仅添加一条无关信息,无法系统评估。
- 核心矛盾:现实推理中大量可用信息是无关的,高效推理需要识别并忽略干扰;但 LLM 缺乏系统性地区分相关/无关信息的能力。
- 本文要解决什么? (1) 定义并度量推理效率;(2) 系统评估 LLM 面对无关信息时的准确性和效率。
- 切入角度:逻辑编程提供了干净的形式化框架——每个推理步骤对应超图中的一条边,最短证明是最高效的。通过 verbalized logic program 将自然语言证明映射回逻辑推导步骤。
- 核心idea一句话:用 verbalized logic program 桥接自然语言推理和形式化推导,以最短证明为参照度量 LLM 的推理效率。
方法详解¶
整体框架¶
(1) 构建 verbalized GSM logic program:从 GSM 风格数学题生成逻辑程序,每个定理关联自然语言描述;(2) 注入无关公理:添加与目标定理不同程度语义重叠的无关信息;(3) 评估:将 LLM 生成的 CoT 证明映射回逻辑程序的定理,与最短证明对比。
关键设计¶
- Verbalized Logic Program:
- 做什么:为逻辑程序中的每个定理关联一组自然语言字符串,实现形式化推理和自然语言推理的双向映射
- 核心思路:构建包含公理(已知事实)、推理规则(如加法、乘法)和目标定理的带类型逻辑程序,每个元素都有对应的自然语言模板
-
设计动机:区分"不必要的推理步骤"和"冗长表述"——只度量前者
-
系统化的无关信息注入:
- 做什么:在 GSM 问题中添加可控数量的无关公理,且控制无关公理与目标问题的语义重叠度
- 核心思路:三种重叠类型——(1) 主体重叠(涉及相同人物如 "Ryan");(2) 对象重叠(涉及相同物品如 "cats");(3) 双重重叠(同时涉及相同人物和物品)
-
设计动机:现有数据集只添加一条无关信息,本框架可添加任意数量、可控重叠度的无关信息
-
效率度量:
- 做什么:将 LLM 的 CoT 步骤映射到逻辑程序的定理,计算"非必要定理比例"
- 核心思路:对于正确回答的问题,统计 LLM 生成的证明中有多少定理不在最短证明路径上
- 设计动机:最短证明是效率的理论下界,偏离量直接度量低效程度
实验关键数据¶
准确率下降(加入无关公理)¶
| 模型 | 无无关公理 | 1个无关 | 3个无关 | 5个无关 |
|---|---|---|---|---|
| GPT-4o | ~95% | ~88% | ~78% | ~70% |
| o1-mini | ~97% | ~92% | ~85% | ~78% |
| Llama-3.1-70B | ~85% | ~75% | ~60% | ~50% |
推理效率(正确答案中的不必要定理比例)¶
| 条件 | 不必要定理比例 |
|---|---|
| 50% 公理无关 | >50% 的 LLM 推理步骤也是不必要的 |
| 高语义重叠 | 不必要比例更高(LLM 被相似信息吸引) |
| 无无关公理 | ~5-10%(少量冗余推理) |
关键发现¶
- 即使只添加一条同领域的无关信息,所有 LLM 的准确率都有可观下降
- 准确率下降不能仅归因于输入变长——等长但无干扰的控制组表现显著更好
- LLM 在正确回答的问题中也频繁使用无关信息进行推理,说明效率问题比准确率问题更普遍
- 语义重叠越高,LLM 越倾向于使用无关信息——这暗示 LLM 的搜索过程依赖某种"语义相似性启发式"
亮点与洞察¶
- 效率 vs 正确性:首次将"推理效率"从"推理正确性"中分离出来作为独立评估维度
- 逻辑编程的桥接作用:verbalized logic program 优雅地连接了自然语言推理和形式化推理,使自动评估成为可能
- LLM 的"语义吸引"现象:LLM 倾向于使用语义相似的信息进行推理,即使这些信息是无关的——这揭示了基于 attention 的信息检索机制的固有局限性
局限性 / 可改进方向¶
- 仅限数学应用题:GSM 风格问题的逻辑结构相对简单,更复杂的推理(如多跳、反事实)未覆盖
- 自然语言→逻辑映射的准确性:映射过程可能引入噪声
- 未评估推理模型的最新版本(如 o3)
相关工作与启发¶
- vs Shi et al. (2023) GSM-IC: 仅添加一条无关信息;本文系统化多条、可控重叠度的注入
- vs 推理效率优化(han et al. 2025): 它们用 token 数作为效率指标;本文用形式化的不必要推理步骤
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个从逻辑编程角度评估 LLM 推理效率的框架
- 实验充分度: ⭐⭐⭐⭐ 多模型 + 系统化的无关信息变体 + 效率和准确率双重评估
- 写作质量: ⭐⭐⭐⭐⭐ 形式化定义严谨,实验设计精巧
- 价值: ⭐⭐⭐⭐⭐ 对理解和改进 LLM 推理质量有重要学术价值