跳转至

Commonsense Abductive Reasoning using Knowledge from Multiple Sources

会议: ACL 2025
领域: LLM推理
关键词: 溯因推理, 常识推理, 多源知识, 知识融合, 可解释推理

一句话总结

本文提出一种融合多源知识(知识图谱、预训练语言模型、规则库)的常识溯因推理方法,通过联合利用结构化和非结构化知识来生成更准确、更可解释的最佳解释,在溯因推理基准上取得了显著提升。

研究背景与动机

领域现状:溯因推理(Abductive Reasoning)是从观察到的结果推断最佳解释的推理方式,是人类日常推理的核心能力(例如看到地面湿了推断可能下过雨)。常识溯因推理要求模型在给定起始观察和最终观察的情况下,选择或生成最合理的中间假设(解释)。代表性基准包括αNLI (Abductive NLI)和ART任务。

现有痛点:当前常识溯因推理方法主要依赖单一知识来源:(1)基于PLM的方法——利用预训练语言模型的隐式知识进行推理,但隐式知识难以覆盖所有常识场景,且缺乏可解释性;(2)基于知识图谱(如ConceptNet)的方法——利用显式的常识知识三元组,但知识图谱覆盖面有限且对新概念不友好;(3)基于LLM的方法——直接使用GPT等生成解释,但容易产生幻觉且缺乏事实约束。

核心矛盾:每种知识来源都有其独特的优势和局限——PLM擅长语义理解但缺乏显式知识,KG提供准确的事实关系但覆盖不全,LLM擅长生成但不够可靠。如何融合多种知识来源的优势?

本文目标:设计一个统一的框架,将多个知识来源(知识图谱、预训练模型、LLM生成的知识、通用规则库)进行有效融合,用于常识溯因推理。

切入角度:不同类型的溯因问题需要不同类型的知识——物理事件需要物理常识(KG中丰富),社会交互需要社会常识(PLM中隐含),因果推断需要因果规则(规则库中显式)。自适应地为每个问题选择最相关的知识来源是关键。

核心 idea:构建"多源知识增强"的溯因推理框架,为每个推理问题从多个来源检索相关知识,通过注意力机制自适应融合,生成知识增强的假设解释。

方法详解

整体框架

给定观察对(起始观察O1和最终观察O2),框架首先从多个知识来源并行检索与观察相关的知识片段,然后通过多源知识融合模块整合这些知识,最后基于融合后的知识表示进行假设选择或生成。

关键设计

  1. 多源知识检索模块(Multi-Source Knowledge Retrieval):

    • 功能:从不同知识来源高效检索与当前推理问题相关的知识
    • 核心思路:为每个知识来源设计专门的检索策略——对知识图谱(ConceptNet),提取O1和O2中的关键概念,检索这些概念之间的多跳路径作为结构化知识;对预训练LM(如RoBERTa),使用探针技术(probing)从模型中提取相关的隐式知识,通过完型填空生成候选知识句;对LLM(如GPT-3.5),设计特定提示让其生成关于O1→O2可能因果链的知识描述;对规则库(如ATOMIC),检索与观察匹配的if-then常识规则。每个来源返回top-K条最相关的知识片段
    • 设计动机:单一来源的检索可能遗漏关键信息,并行检索多个来源确保知识覆盖的全面性
  2. 知识质量打分与筛选(Knowledge Quality Scoring and Filtering):

    • 功能:评估检索到的知识片段的相关性和可靠性,筛选高质量知识
    • 核心思路:对每条检索到的知识 \(k_i\),使用一个轻量级的知识评分器计算其与当前推理问题的相关性分数 \(s_i = \sigma(MLP([h_{O1}; h_{O2}; h_{k_i}]))\),其中 \(h\) 是编码后的向量表示。相关性分数低于阈值的知识被过滤掉。同时引入来源可靠性权重——来自验证过的KG的知识获得较高的先验可靠性分数,LLM生成的知识获得较低的先验分数(需要更高的相关性才能通过筛选)
    • 设计动机:并非所有检索到的知识都有用,噪声知识可能误导推理。特别是LLM生成的知识可能包含幻觉,需要更严格的筛选
  3. 注意力驱动的多源知识融合(Attention-Driven Multi-Source Fusion):

    • 功能:将来自不同来源的知识片段自适应融合为统一的知识表示
    • 核心思路:使用跨注意力机制,将当前推理问题的表示 \(Q = [h_{O1}; h_{O2}]\) 作为query,筛选后的知识片段集合 \(K = \{k_1, ..., k_n\}\) 作为key/value,计算注意力权重后得到融合的知识表示 \(h_{knowledge} = \text{CrossAttn}(Q, K)\)。融合表示与推理问题表示拼接后,输入到最终的分类/生成头进行假设选择或生成
    • 设计动机:不同问题对不同来源的知识依赖程度不同,注意力机制让模型自动学习"什么时候更信任KG、什么时候更信任LLM"

损失函数 / 训练策略

对假设选择任务使用交叉熵分类损失,对假设生成任务使用序列到序列生成损失。知识评分器通过远程监督训练(以最终推理正确性作为信号反传到评分器)。

实验关键数据

主实验

方法 αNLI Acc↑ ART Acc↑ δ-CAUSAL F1↑ 平均↑
RoBERTa-large 83.5 71.2 62.8 72.5
KG-Augmented RoBERTa 85.2 73.8 65.1 74.7
GPT-3.5 zero-shot 80.1 68.5 59.3 69.3
GPT-3.5 + CoT 84.8 74.2 66.5 75.2
MICO (单源最优) 86.3 75.1 67.2 76.2
本文方法 89.1 78.6 71.8 79.8

消融实验

配置 αNLI Acc↑ ART Acc↑ 说明
完整方法(4源) 89.1 78.6 全部知识来源
仅ConceptNet 85.8 74.3 结构化知识有限
仅PLM隐式知识 84.2 72.5 隐式知识不够精确
仅LLM生成知识 86.5 75.8 LLM知识全面但有噪声
仅ATOMIC规则 85.0 73.1 规则覆盖面有限
无知识筛选 87.3 76.2 噪声知识导致-1.8/-2.4
均匀融合(无注意力) 87.8 77.0 自适应融合优于均匀+1.3

关键发现

  • 多源融合相比任何单源方法都有显著提升(+2.8~+4.9 Acc),证明了知识互补性
  • LLM生成的知识是最有效的单源(αNLI 86.5),但加上质量筛选后多源方法远超单纯依赖LLM
  • 知识质量筛选对LLM来源的知识影响最大(筛选前后差距2.3),验证了LLM幻觉问题的存在
  • 注意力融合优于均匀融合(+1.3/+1.6),模型学会了根据问题类型自动选择更可靠的知识源
  • 在需要因果推理的样本上(δ-CAUSAL),多源知识的优势更加明显

亮点与洞察

  • 将溯因推理从"单知识源"推进到"多知识源融合"是很有价值的方向,揭示了不同知识源的互补性
  • 知识质量筛选中"来源可靠性先验"的设计很实用——对LLM生成的知识更严格,对KG知识更宽容
  • 注意力融合的可解释性:通过分析注意力权重可以看到模型在不同问题上偏向哪个知识源

局限与展望

  • 多源检索增加了推理延迟和计算开销,实际部署需要考虑效率
  • 知识图谱和规则库需要人工维护和更新,长期维护成本较高
  • 对于知识图谱未覆盖的小众领域,多源融合的提升可能有限
  • 可以引入知识冲突检测模块——当不同来源的知识相互矛盾时,如何决策

相关工作与启发

  • vs MICO (Wang et al., 2023): MICO使用单一知识源增强溯因推理,本文扩展到多源融合
  • vs Abductive Commonsense (Du et al., 2023): Du等利用互斥解释进行溯因推理,本文关注知识增强
  • vs RAG (Lewis et al., 2020): RAG从单一文档库检索增强生成,本文从多种异构知识源检索

评分

  • 新颖性: ⭐⭐⭐⭐ 多源知识融合思路清晰,但各组件技术不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融非常详尽,每个知识源的贡献都有量化
  • 写作质量: ⭐⭐⭐⭐ 动机阐述到位,框架图清晰
  • 价值: ⭐⭐⭐⭐ 对常识推理和知识融合都有参考价值

相关论文