Commonsense Abductive Reasoning using Knowledge from Multiple Sources¶

会议: ACL 2025
领域: LLM推理
关键词: 溯因推理, 常识推理, 多源知识, 知识融合, 可解释推理

一句话总结¶

本文提出一种融合多源知识（知识图谱、预训练语言模型、规则库）的常识溯因推理方法，通过联合利用结构化和非结构化知识来生成更准确、更可解释的最佳解释，在溯因推理基准上取得了显著提升。

研究背景与动机¶

领域现状：溯因推理（Abductive Reasoning）是从观察到的结果推断最佳解释的推理方式，是人类日常推理的核心能力（例如看到地面湿了推断可能下过雨）。常识溯因推理要求模型在给定起始观察和最终观察的情况下，选择或生成最合理的中间假设（解释）。代表性基准包括αNLI (Abductive NLI)和ART任务。

现有痛点：当前常识溯因推理方法主要依赖单一知识来源：（1）基于PLM的方法——利用预训练语言模型的隐式知识进行推理，但隐式知识难以覆盖所有常识场景，且缺乏可解释性；（2）基于知识图谱（如ConceptNet）的方法——利用显式的常识知识三元组，但知识图谱覆盖面有限且对新概念不友好；（3）基于LLM的方法——直接使用GPT等生成解释，但容易产生幻觉且缺乏事实约束。

核心矛盾：每种知识来源都有其独特的优势和局限——PLM擅长语义理解但缺乏显式知识，KG提供准确的事实关系但覆盖不全，LLM擅长生成但不够可靠。如何融合多种知识来源的优势？

本文目标：设计一个统一的框架，将多个知识来源（知识图谱、预训练模型、LLM生成的知识、通用规则库）进行有效融合，用于常识溯因推理。

切入角度：不同类型的溯因问题需要不同类型的知识——物理事件需要物理常识（KG中丰富），社会交互需要社会常识（PLM中隐含），因果推断需要因果规则（规则库中显式）。自适应地为每个问题选择最相关的知识来源是关键。

核心 idea：构建"多源知识增强"的溯因推理框架，为每个推理问题从多个来源检索相关知识，通过注意力机制自适应融合，生成知识增强的假设解释。

方法详解¶

整体框架¶

给定观察对（起始观察O1和最终观察O2），框架首先从多个知识来源并行检索与观察相关的知识片段，然后通过多源知识融合模块整合这些知识，最后基于融合后的知识表示进行假设选择或生成。

关键设计¶

多源知识检索模块（Multi-Source Knowledge Retrieval）:
- 功能：从不同知识来源高效检索与当前推理问题相关的知识
- 核心思路：为每个知识来源设计专门的检索策略——对知识图谱（ConceptNet），提取O1和O2中的关键概念，检索这些概念之间的多跳路径作为结构化知识；对预训练LM（如RoBERTa），使用探针技术（probing）从模型中提取相关的隐式知识，通过完型填空生成候选知识句；对LLM（如GPT-3.5），设计特定提示让其生成关于O1→O2可能因果链的知识描述；对规则库（如ATOMIC），检索与观察匹配的if-then常识规则。每个来源返回top-K条最相关的知识片段
- 设计动机：单一来源的检索可能遗漏关键信息，并行检索多个来源确保知识覆盖的全面性
知识质量打分与筛选（Knowledge Quality Scoring and Filtering）:
- 功能：评估检索到的知识片段的相关性和可靠性，筛选高质量知识
- 核心思路：对每条检索到的知识 \(k_i\)，使用一个轻量级的知识评分器计算其与当前推理问题的相关性分数 \(s_i = \sigma(MLP([h_{O1}; h_{O2}; h_{k_i}]))\)，其中 \(h\) 是编码后的向量表示。相关性分数低于阈值的知识被过滤掉。同时引入来源可靠性权重——来自验证过的KG的知识获得较高的先验可靠性分数，LLM生成的知识获得较低的先验分数（需要更高的相关性才能通过筛选）
- 设计动机：并非所有检索到的知识都有用，噪声知识可能误导推理。特别是LLM生成的知识可能包含幻觉，需要更严格的筛选
注意力驱动的多源知识融合（Attention-Driven Multi-Source Fusion）:
- 功能：将来自不同来源的知识片段自适应融合为统一的知识表示
- 核心思路：使用跨注意力机制，将当前推理问题的表示 \(Q = [h_{O1}; h_{O2}]\) 作为query，筛选后的知识片段集合 \(K = \{k_1, ..., k_n\}\) 作为key/value，计算注意力权重后得到融合的知识表示 \(h_{knowledge} = \text{CrossAttn}(Q, K)\)。融合表示与推理问题表示拼接后，输入到最终的分类/生成头进行假设选择或生成
- 设计动机：不同问题对不同来源的知识依赖程度不同，注意力机制让模型自动学习"什么时候更信任KG、什么时候更信任LLM"

损失函数 / 训练策略¶

对假设选择任务使用交叉熵分类损失，对假设生成任务使用序列到序列生成损失。知识评分器通过远程监督训练（以最终推理正确性作为信号反传到评分器）。

实验关键数据¶

主实验¶

方法	αNLI Acc↑	ART Acc↑	δ-CAUSAL F1↑	平均↑
RoBERTa-large	83.5	71.2	62.8	72.5
KG-Augmented RoBERTa	85.2	73.8	65.1	74.7
GPT-3.5 zero-shot	80.1	68.5	59.3	69.3
GPT-3.5 + CoT	84.8	74.2	66.5	75.2
MICO (单源最优)	86.3	75.1	67.2	76.2
本文方法	89.1	78.6	71.8	79.8

消融实验¶

配置	αNLI Acc↑	ART Acc↑	说明
完整方法（4源）	89.1	78.6	全部知识来源
仅ConceptNet	85.8	74.3	结构化知识有限
仅PLM隐式知识	84.2	72.5	隐式知识不够精确
仅LLM生成知识	86.5	75.8	LLM知识全面但有噪声
仅ATOMIC规则	85.0	73.1	规则覆盖面有限
无知识筛选	87.3	76.2	噪声知识导致-1.8/-2.4
均匀融合（无注意力）	87.8	77.0	自适应融合优于均匀+1.3

关键发现¶

多源融合相比任何单源方法都有显著提升（+2.8~+4.9 Acc），证明了知识互补性
LLM生成的知识是最有效的单源（αNLI 86.5），但加上质量筛选后多源方法远超单纯依赖LLM
知识质量筛选对LLM来源的知识影响最大（筛选前后差距2.3），验证了LLM幻觉问题的存在
注意力融合优于均匀融合（+1.3/+1.6），模型学会了根据问题类型自动选择更可靠的知识源
在需要因果推理的样本上（δ-CAUSAL），多源知识的优势更加明显

亮点与洞察¶

将溯因推理从"单知识源"推进到"多知识源融合"是很有价值的方向，揭示了不同知识源的互补性
知识质量筛选中"来源可靠性先验"的设计很实用——对LLM生成的知识更严格，对KG知识更宽容
注意力融合的可解释性：通过分析注意力权重可以看到模型在不同问题上偏向哪个知识源

局限与展望¶

多源检索增加了推理延迟和计算开销，实际部署需要考虑效率
知识图谱和规则库需要人工维护和更新，长期维护成本较高
对于知识图谱未覆盖的小众领域，多源融合的提升可能有限
可以引入知识冲突检测模块——当不同来源的知识相互矛盾时，如何决策

评分¶

新颖性: ⭐⭐⭐⭐ 多源知识融合思路清晰，但各组件技术不算全新
实验充分度: ⭐⭐⭐⭐⭐ 消融非常详尽，每个知识源的贡献都有量化
写作质量: ⭐⭐⭐⭐ 动机阐述到位，框架图清晰
价值: ⭐⭐⭐⭐ 对常识推理和知识融合都有参考价值