Commonsense Abductive Reasoning using Knowledge from Multiple Sources¶
会议: ACL 2025
领域: LLM推理
关键词: 溯因推理, 常识推理, 多源知识, 知识融合, 可解释推理
一句话总结¶
本文提出一种融合多源知识(知识图谱、预训练语言模型、规则库)的常识溯因推理方法,通过联合利用结构化和非结构化知识来生成更准确、更可解释的最佳解释,在溯因推理基准上取得了显著提升。
研究背景与动机¶
领域现状:溯因推理(Abductive Reasoning)是从观察到的结果推断最佳解释的推理方式,是人类日常推理的核心能力(例如看到地面湿了推断可能下过雨)。常识溯因推理要求模型在给定起始观察和最终观察的情况下,选择或生成最合理的中间假设(解释)。代表性基准包括αNLI (Abductive NLI)和ART任务。
现有痛点:当前常识溯因推理方法主要依赖单一知识来源:(1)基于PLM的方法——利用预训练语言模型的隐式知识进行推理,但隐式知识难以覆盖所有常识场景,且缺乏可解释性;(2)基于知识图谱(如ConceptNet)的方法——利用显式的常识知识三元组,但知识图谱覆盖面有限且对新概念不友好;(3)基于LLM的方法——直接使用GPT等生成解释,但容易产生幻觉且缺乏事实约束。
核心矛盾:每种知识来源都有其独特的优势和局限——PLM擅长语义理解但缺乏显式知识,KG提供准确的事实关系但覆盖不全,LLM擅长生成但不够可靠。如何融合多种知识来源的优势?
本文目标:设计一个统一的框架,将多个知识来源(知识图谱、预训练模型、LLM生成的知识、通用规则库)进行有效融合,用于常识溯因推理。
切入角度:不同类型的溯因问题需要不同类型的知识——物理事件需要物理常识(KG中丰富),社会交互需要社会常识(PLM中隐含),因果推断需要因果规则(规则库中显式)。自适应地为每个问题选择最相关的知识来源是关键。
核心 idea:构建"多源知识增强"的溯因推理框架,为每个推理问题从多个来源检索相关知识,通过注意力机制自适应融合,生成知识增强的假设解释。
方法详解¶
整体框架¶
给定观察对(起始观察O1和最终观察O2),框架首先从多个知识来源并行检索与观察相关的知识片段,然后通过多源知识融合模块整合这些知识,最后基于融合后的知识表示进行假设选择或生成。
关键设计¶
-
多源知识检索模块(Multi-Source Knowledge Retrieval):
- 功能:从不同知识来源高效检索与当前推理问题相关的知识
- 核心思路:为每个知识来源设计专门的检索策略——对知识图谱(ConceptNet),提取O1和O2中的关键概念,检索这些概念之间的多跳路径作为结构化知识;对预训练LM(如RoBERTa),使用探针技术(probing)从模型中提取相关的隐式知识,通过完型填空生成候选知识句;对LLM(如GPT-3.5),设计特定提示让其生成关于O1→O2可能因果链的知识描述;对规则库(如ATOMIC),检索与观察匹配的if-then常识规则。每个来源返回top-K条最相关的知识片段
- 设计动机:单一来源的检索可能遗漏关键信息,并行检索多个来源确保知识覆盖的全面性
-
知识质量打分与筛选(Knowledge Quality Scoring and Filtering):
- 功能:评估检索到的知识片段的相关性和可靠性,筛选高质量知识
- 核心思路:对每条检索到的知识 \(k_i\),使用一个轻量级的知识评分器计算其与当前推理问题的相关性分数 \(s_i = \sigma(MLP([h_{O1}; h_{O2}; h_{k_i}]))\),其中 \(h\) 是编码后的向量表示。相关性分数低于阈值的知识被过滤掉。同时引入来源可靠性权重——来自验证过的KG的知识获得较高的先验可靠性分数,LLM生成的知识获得较低的先验分数(需要更高的相关性才能通过筛选)
- 设计动机:并非所有检索到的知识都有用,噪声知识可能误导推理。特别是LLM生成的知识可能包含幻觉,需要更严格的筛选
-
注意力驱动的多源知识融合(Attention-Driven Multi-Source Fusion):
- 功能:将来自不同来源的知识片段自适应融合为统一的知识表示
- 核心思路:使用跨注意力机制,将当前推理问题的表示 \(Q = [h_{O1}; h_{O2}]\) 作为query,筛选后的知识片段集合 \(K = \{k_1, ..., k_n\}\) 作为key/value,计算注意力权重后得到融合的知识表示 \(h_{knowledge} = \text{CrossAttn}(Q, K)\)。融合表示与推理问题表示拼接后,输入到最终的分类/生成头进行假设选择或生成
- 设计动机:不同问题对不同来源的知识依赖程度不同,注意力机制让模型自动学习"什么时候更信任KG、什么时候更信任LLM"
损失函数 / 训练策略¶
对假设选择任务使用交叉熵分类损失,对假设生成任务使用序列到序列生成损失。知识评分器通过远程监督训练(以最终推理正确性作为信号反传到评分器)。
实验关键数据¶
主实验¶
| 方法 | αNLI Acc↑ | ART Acc↑ | δ-CAUSAL F1↑ | 平均↑ |
|---|---|---|---|---|
| RoBERTa-large | 83.5 | 71.2 | 62.8 | 72.5 |
| KG-Augmented RoBERTa | 85.2 | 73.8 | 65.1 | 74.7 |
| GPT-3.5 zero-shot | 80.1 | 68.5 | 59.3 | 69.3 |
| GPT-3.5 + CoT | 84.8 | 74.2 | 66.5 | 75.2 |
| MICO (单源最优) | 86.3 | 75.1 | 67.2 | 76.2 |
| 本文方法 | 89.1 | 78.6 | 71.8 | 79.8 |
消融实验¶
| 配置 | αNLI Acc↑ | ART Acc↑ | 说明 |
|---|---|---|---|
| 完整方法(4源) | 89.1 | 78.6 | 全部知识来源 |
| 仅ConceptNet | 85.8 | 74.3 | 结构化知识有限 |
| 仅PLM隐式知识 | 84.2 | 72.5 | 隐式知识不够精确 |
| 仅LLM生成知识 | 86.5 | 75.8 | LLM知识全面但有噪声 |
| 仅ATOMIC规则 | 85.0 | 73.1 | 规则覆盖面有限 |
| 无知识筛选 | 87.3 | 76.2 | 噪声知识导致-1.8/-2.4 |
| 均匀融合(无注意力) | 87.8 | 77.0 | 自适应融合优于均匀+1.3 |
关键发现¶
- 多源融合相比任何单源方法都有显著提升(+2.8~+4.9 Acc),证明了知识互补性
- LLM生成的知识是最有效的单源(αNLI 86.5),但加上质量筛选后多源方法远超单纯依赖LLM
- 知识质量筛选对LLM来源的知识影响最大(筛选前后差距2.3),验证了LLM幻觉问题的存在
- 注意力融合优于均匀融合(+1.3/+1.6),模型学会了根据问题类型自动选择更可靠的知识源
- 在需要因果推理的样本上(δ-CAUSAL),多源知识的优势更加明显
亮点与洞察¶
- 将溯因推理从"单知识源"推进到"多知识源融合"是很有价值的方向,揭示了不同知识源的互补性
- 知识质量筛选中"来源可靠性先验"的设计很实用——对LLM生成的知识更严格,对KG知识更宽容
- 注意力融合的可解释性:通过分析注意力权重可以看到模型在不同问题上偏向哪个知识源
局限与展望¶
- 多源检索增加了推理延迟和计算开销,实际部署需要考虑效率
- 知识图谱和规则库需要人工维护和更新,长期维护成本较高
- 对于知识图谱未覆盖的小众领域,多源融合的提升可能有限
- 可以引入知识冲突检测模块——当不同来源的知识相互矛盾时,如何决策
相关工作与启发¶
- vs MICO (Wang et al., 2023): MICO使用单一知识源增强溯因推理,本文扩展到多源融合
- vs Abductive Commonsense (Du et al., 2023): Du等利用互斥解释进行溯因推理,本文关注知识增强
- vs RAG (Lewis et al., 2020): RAG从单一文档库检索增强生成,本文从多种异构知识源检索
评分¶
- 新颖性: ⭐⭐⭐⭐ 多源知识融合思路清晰,但各组件技术不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 消融非常详尽,每个知识源的贡献都有量化
- 写作质量: ⭐⭐⭐⭐ 动机阐述到位,框架图清晰
- 价值: ⭐⭐⭐⭐ 对常识推理和知识融合都有参考价值
相关论文¶
- [ACL 2025] Complex Reasoning with Natural Language Contexts and Background Knowledge
- [NeurIPS 2025] Curriculum Abductive Learning
- [ICLR 2026] LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation
- [ACL 2026] Towards Effective In-context Cross-domain Knowledge Transfer via Domain-invariant-neurons-based Retrieval
- [ACL 2025] Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models