Are Language Models Efficient Reasoners? A Perspective from Logic Programming¶

会议: NeurIPS 2025 arXiv: 2510.25626 代码: GitHub 领域: LLM推理 / 形式化评估 关键词: reasoning efficiency, logic programming, irrelevant information, proof length, deductive reasoning

一句话总结¶

从逻辑编程角度提出评估 LLM 推理效率（而非仅正确性）的框架——通过 verbalized logic program 将自然语言证明映射到逻辑程序证明，发现当前 LLM 在含无关公理的数学题中不仅准确率下降，且推理过程严重低效（超过一半的推理步骤是不必要的）。

研究背景与动机¶

领域现状：LLM 推理评估主要关注最终答案的正确性，忽略了推理过程的效率。近期推理模型（如 o1、DeepSeek-R1）经常生成远超必要的推理步骤。
现有痛点：(1) 用 token 数量度量效率混淆了"不必要的推理步骤"和"冗长的自然语言表述"两个来源；(2) 缺乏形式化框架定义"高效推理"；(3) 现有数据集（GSM8k-IC 等）仅添加一条无关信息，无法系统评估。
核心矛盾：现实推理中大量可用信息是无关的，高效推理需要识别并忽略干扰；但 LLM 缺乏系统性地区分相关/无关信息的能力。
本文要解决什么？ (1) 定义并度量推理效率；(2) 系统评估 LLM 面对无关信息时的准确性和效率。
切入角度：逻辑编程提供了干净的形式化框架——每个推理步骤对应超图中的一条边，最短证明是最高效的。通过 verbalized logic program 将自然语言证明映射回逻辑推导步骤。
核心idea一句话：用 verbalized logic program 桥接自然语言推理和形式化推导，以最短证明为参照度量 LLM 的推理效率。

方法详解¶

整体框架¶

(1) 构建 verbalized GSM logic program：从 GSM 风格数学题生成逻辑程序，每个定理关联自然语言描述；(2) 注入无关公理：添加与目标定理不同程度语义重叠的无关信息；(3) 评估：将 LLM 生成的 CoT 证明映射回逻辑程序的定理，与最短证明对比。

关键设计¶

Verbalized Logic Program:
做什么：为逻辑程序中的每个定理关联一组自然语言字符串，实现形式化推理和自然语言推理的双向映射
核心思路：构建包含公理（已知事实）、推理规则（如加法、乘法）和目标定理的带类型逻辑程序，每个元素都有对应的自然语言模板
设计动机：区分"不必要的推理步骤"和"冗长表述"——只度量前者
系统化的无关信息注入:
做什么：在 GSM 问题中添加可控数量的无关公理，且控制无关公理与目标问题的语义重叠度
核心思路：三种重叠类型——(1) 主体重叠（涉及相同人物如 "Ryan"）；(2) 对象重叠（涉及相同物品如 "cats"）；(3) 双重重叠（同时涉及相同人物和物品）
设计动机：现有数据集只添加一条无关信息，本框架可添加任意数量、可控重叠度的无关信息
效率度量:
做什么：将 LLM 的 CoT 步骤映射到逻辑程序的定理，计算"非必要定理比例"
核心思路：对于正确回答的问题，统计 LLM 生成的证明中有多少定理不在最短证明路径上
设计动机：最短证明是效率的理论下界，偏离量直接度量低效程度

实验关键数据¶

准确率下降（加入无关公理）¶

模型	无无关公理	1个无关	3个无关	5个无关
GPT-4o	~95%	~88%	~78%	~70%
o1-mini	~97%	~92%	~85%	~78%
Llama-3.1-70B	~85%	~75%	~60%	~50%

推理效率（正确答案中的不必要定理比例）¶

条件	不必要定理比例
50% 公理无关	>50% 的 LLM 推理步骤也是不必要的
高语义重叠	不必要比例更高（LLM 被相似信息吸引）
无无关公理	~5-10%（少量冗余推理）

关键发现¶

即使只添加一条同领域的无关信息，所有 LLM 的准确率都有可观下降
准确率下降不能仅归因于输入变长——等长但无干扰的控制组表现显著更好
LLM 在正确回答的问题中也频繁使用无关信息进行推理，说明效率问题比准确率问题更普遍
语义重叠越高，LLM 越倾向于使用无关信息——这暗示 LLM 的搜索过程依赖某种"语义相似性启发式"

亮点与洞察¶

效率 vs 正确性：首次将"推理效率"从"推理正确性"中分离出来作为独立评估维度
逻辑编程的桥接作用：verbalized logic program 优雅地连接了自然语言推理和形式化推理，使自动评估成为可能
LLM 的"语义吸引"现象：LLM 倾向于使用语义相似的信息进行推理，即使这些信息是无关的——这揭示了基于 attention 的信息检索机制的固有局限性

局限性 / 可改进方向¶

仅限数学应用题：GSM 风格问题的逻辑结构相对简单，更复杂的推理（如多跳、反事实）未覆盖
自然语言→逻辑映射的准确性：映射过程可能引入噪声
未评估推理模型的最新版本（如 o3）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个从逻辑编程角度评估 LLM 推理效率的框架
实验充分度: ⭐⭐⭐⭐ 多模型 + 系统化的无关信息变体 + 效率和准确率双重评估
写作质量: ⭐⭐⭐⭐⭐ 形式化定义严谨，实验设计精巧
价值: ⭐⭐⭐⭐⭐ 对理解和改进 LLM 推理质量有重要学术价值