跳转至

TopInG: Topologically Interpretable Graph Learning via Persistent Rationale Filtration

会议: ICML 2025
arXiv: 2510.05102
领域: 人体理解

一句话总结

TopInG 提出了一种基于持久同调的拓扑可解释图学习框架,通过学习"基本原理过滤"(rationale filtration)来识别稳定且持久的基本原理子图,引入"拓扑差异"(topological discrepancy)约束来强化基本原理子图与无关子图之间的拓扑区分,在处理多变形态的基本原理子图时显著优于现有方法。

研究背景与动机

GNN 在科学领域取得了显著成功,但其可解释性不足限制了在关键决策中的采用。现有的内在可解释 GNN(如 GSAT、GMT、DIR)面临一个共同问题:

隐含假设过强:现有方法通常假设同类图的基本原理子图在形式上近乎不变。然而在现实中,多变形态的基本原理子图(variform rationale subgraphs)非常常见:

  • 分子生物学中,具有相同生物活性的分子可能有不同的功能团(芳香环、磺酰胺基、杂环化合物)
  • 社交网络中,用户影响力的结构原因各异(高度数、高介数中心性、桥接节点)

方法详解

核心思想

将图视为从核心基本原理子图 \(G_X^*\) 出发"生长"出的结构:先生成关键子图,后添加辅助结构。通过持久同调追踪这一生成过程中的拓扑特征生命周期。

基本原理过滤学习

使用骨干 GNN 作为可学习的过滤函数 \(f_\phi: G \to [0,1]^{|E|}\),为每条边分配重要性分数。这些分数诱导出一个图过滤——一个嵌套子图序列:

\[\mathcal{F}(G) = \{G_0, G_1, \ldots, G_{|E|}\}\]

按重要性降序逐步添加边(更重要的边先加入)。目标是学习到与 \(G_X^*\)\(G_\epsilon^*\) 的划分一致的重要性排序。

拓扑差异(Topological Discrepancy)

定义拓扑差异为持久同调分布之间的 1-Wasserstein 距离:

\[d_{\text{topo}}(\mathbb{P}(\mathcal{T}_X), \mathbb{P}(\mathcal{T}_\epsilon)) \triangleq \inf_{\pi \in \Pi(\mathbb{P}(\mathcal{T}_X), \mathbb{P}(\mathcal{T}_\epsilon))} \mathbb{E}_{(P,Q) \sim \pi}[d_B(P,Q)]\]

其中 \(d_B\) 为瓶颈距离。

总体损失函数

\[\mathcal{L}(\phi) = \mathbb{E}_G[\mathcal{L}_{\text{ce}}(\hat{y}_G, y_G)] - \alpha \mathcal{L}_{\text{topo}}(\mathbb{P}(\mathcal{T}_X), \mathbb{P}(\mathcal{T}_\epsilon))\]

通过最大化拓扑差异来增强基本原理子图与补充子图的拓扑区分。

可计算的下界

利用 Kantorovich 对偶和 Lipschitz 连续的可学习向量化函数(Rational Hat 结构元素)提供可计算的下界:

\[\varphi(p; \mathbf{c}, r) = \sum_{\mathbf{x} \in p} \frac{1}{1 + \|\mathbf{x} - \mathbf{c}\|_2} - \frac{1}{1 + ||r| - \|\mathbf{x} - \mathbf{c}\|_2|}\]

使用 2 头注意力机制从 \(k=8\) 个 Lipschitz 表示函数中选择 top-2 最大值。

先验正则化

引入双混合高斯先验对边过滤值进行聚类:

\[\mathbb{P}_{prior} = w\mathcal{N}(\mu_1, r_1) + (1-w)\mathcal{N}(\mu_2, r_2)\]

固定 \(w=0.5\)\(\mu_1=0.25\)\(\mu_2=0.75\),实现对 \(G_X\)\(G_\epsilon\) 的无监督聚类。

理论保证

定理 3.4:假设对所有 \(G\)\(|E_X| < |E_\epsilon|\),且 \(G_X^*\) 关于 \(y_G\) 是最小的,则损失 \(\mathcal{L}(\phi)\)\(f_\phi^*(e) = \mathbb{1}\{e \in G_X^*\}\) 唯一最优化

关键优势:该保证不依赖基本原理子图的稳定性或不变性假设,因此不受多变形态子图的影响。

实验

解释性能(AUC)

方法 BA-2Motifs BA-HouseGrid SPMotif0.9 BA-HouseAndGrid BA-HouseOrGrid Benzene
GIN+GSAT 98.85 98.55 65.25 92.92 83.56 91.57
GIN+GMT-Lin 97.72 85.68 69.08 76.12 74.36 83.90
GIN+TopInG 99.57 99.24 80.82 95.35 88.56 98.22
CINpp+GSAT 91.12 91.04 80.24 95.17 69.30 95.40
CINpp+TopInG 100.00 99.87 92.82 100.00 100.00 98.72

关键发现: - 在多变形态子图基准(BA-HouseAndGrid、BA-HouseOrGrid)上提升尤为显著 - CINpp+TopInG 在多个数据集上达到 100% AUC - SPMotif0.9(高虚假相关性)上的改进表明方法有效缓解了虚假关联

预测性能

TopInG 在保持高解释性的同时,预测准确率也优于或匹配基线方法,克服了传统的性能-可解释性权衡。

亮点

  • 首次将持久同调引入内在可解释 GNN:提供了全新的拓扑视角来解决基本原理子图识别问题
  • 处理多变形态子图的独特能力:在合成数据集上展示了对现有方法的显著优势
  • 理论保证不依赖不变性假设:基本原理可以在不同实例间自由变化
  • 自适应拓扑约束:先验正则化对超参数不敏感,无需调优
  • 与现有 GNN 骨干兼容:可搭配 GIN、CINpp 等多种架构

局限性

  • 持久同调计算增加了训练时间
  • 仅考虑了 0 阶和 1 阶持久同调(连通分量和环),未利用更高阶拓扑特征
  • 节点过滤到边过滤的扩展(star filtration)信息量有限
  • 在 Mutag 数据集上表现略低于 MAGE
  • 理论保证依赖 \(|E_X| < |E_\epsilon|\) 的假设,可能不总是成立

评分

⭐⭐⭐⭐⭐ (5/5)

这是一篇理论与实践结合极为出色的工作。将拓扑数据分析引入可解释 GNN 是一个巧妙且原创的思路,理论保证严格,实验在多个维度上都显示出显著优势,特别是在处理多变形态子图这一关键挑战上。

相关论文