WILTing Trees: Interpreting the Distance Between MPNN Embeddings¶
会议: ICML 2025
arXiv: 2505.24642
代码: 无
领域: 图学习/GNN可解释性
关键词: MPNN, 图距离, 可解释性, 最优传输, Weisfeiler-Leman, 图核
一句话总结¶
本文发现MPNN学到的嵌入距离与任务相关的functional distance对齐(而非结构距离),并提出基于加权Weisfeiler-Leman标记树(WILT)的最优传输距离来蒸馏和解释MPNN距离,边权揭示了少量关键子图主导了嵌入空间的度量结构。
研究背景与动机¶
MPNN在图预测任务上表现优异,但其嵌入空间的度量结构(即图之间的距离)尚未被充分理解。先前研究(Chuang & Jegelka 2022; Böker et al. 2024)试图通过结构距离(structural distance)来分析MPNN的泛化性能,但这些结构距离忽略了任务信息,并需要强假设(如Lipschitz常数约束或类间间隔假设)。
本文提出两个核心问题: 1. MPNN学到的距离 \(d_{\text{MPNN}}\) 是否与任务相关的功能距离 \(d_{\text{func}}\) 对齐?这种对齐是否是高性能的关键? 2. MPNN如何学到这样的度量结构?能否用可解释的方式蒸馏出来?
作者发现MPNN距离与结构距离的对齐并不一致地随训练改善,也不与性能相关;相反,与功能距离的对齐才是关键。这一发现促使作者设计了WILT来蒸馏和解释MPNN的距离函数。
方法详解¶
整体框架¶
整体流程分两阶段: 1. 分析阶段:定义功能伪度量 \(d_{\text{func}}\) 和对齐度量 \(\text{ALI}_k\),验证训练后的MPNN距离确实与 \(d_{\text{func}}\) 对齐,且对齐程度与预测性能高度相关。 2. 蒸馏阶段:构建Weisfeiler-Leman标记树(WILT),在其上定义可训练的最优传输距离 \(d_{\text{WILT}}\),通过最小化与 \(d_{\text{MPNN}}\) 的MSE来学习边权。学到的边权直接揭示哪些WL颜色(子图模式)对MPNN嵌入距离影响最大。
关键设计1:功能伪度量与对齐度量¶
作者定义了功能伪度量来量化两个图在目标任务上的距离:
为衡量MPNN距离与功能距离的对齐程度,定义了 \(\text{ALI}_k\) 指标:对每个图 \(G\),计算其在MPNN空间中 \(k\) 近邻的平均功能距离 \(A_k(G)\) 与非近邻的平均功能距离 \(B_k(G)\),若 \(B_k(G) > A_k(G)\)(即近的图功能更相近),则说明MPNN距离与功能距离对齐:
实验表明该指标在训练后显著提升,且与预测性能呈强正相关(Spearman相关系数在Mutagenicity上达0.66-0.70)。
关键设计2:WILT距离与线性时间计算¶
WILT是一棵由WL算法产生的颜色层次构建的加权有根树。树的节点是WL测试中出现的所有颜色,边连接相邻迭代中同一节点的颜色。WILT距离定义为图节点的WL颜色之间的最优传输距离,其中ground metric是树上的路径长度:
关键突破在于等价表示——由于ground metric是树上路径长度,此最优传输可以等价转化为加权曼哈顿距离:
其中 \(\nu_c^G\) 是颜色 \(c\) 在图 \(G\) 中出现的次数。这使得计算复杂度从 \(O(n^3)\) 降至 \(O(|V_G|+|V_H|)\),即线性时间。
关键设计3:两种归一化与图核的泛化关系¶
为处理不同大小的图,提出两种归一化: - 大小归一化 \(\dot{d}_{\text{WILT}}\):用 \(\nu_c^G / |V_G|\) 替代计数,当边权恒为 \(\frac{1}{2(L+1)}\) 时退化为Wasserstein WL图核距离 - 虚节点归一化 \(\bar{d}_{\text{WILT}}\):添加虚拟孤立节点使所有图节点数相同,当边权恒为 \(\frac{1}{2}\) 时退化为WL最优分配核距离
理论证明了表达力关系:\(\dot{d}_{\text{WILT}} < \bar{d}_{\text{WILT}} \cong d_{\text{WL}}\),且 \(\dot{d}_{\text{WILT}}\) 更适合近似mean pooling的MPNN,\(\bar{d}_{\text{WILT}}\) 更适合sum pooling的MPNN。
实验关键数据¶
表1:WILT距离近似MPNN距离的RMSE(×10⁻²)¶
| 数据集/池化 | \(d_{\text{WWL}}\) | \(d_{\text{WLOA}}\) | \(\dot{d}_{\text{WILT}}\) | \(\bar{d}_{\text{WILT}}\) |
|---|---|---|---|---|
| Mutagenicity/mean | 9.25±0.87 | 18.74±3.36 | 1.74±0.52 | 3.34±1.01 |
| Mutagenicity/sum | 12.25±0.54 | 5.98±1.60 | 1.22±0.31 | 0.82±0.17 |
| ENZYMES/mean | 12.18±0.23 | 16.79±2.33 | 2.71±0.38 | 4.64±0.67 |
| ENZYMES/sum | 11.28±0.65 | 6.83±0.41 | 9.15±0.47 | 1.43±0.10 |
| Lipophilicity/mean | 10.92±0.42 | 13.97±0.97 | 3.11±0.54 | 6.35±1.22 |
| Lipophilicity/sum | 10.83±0.73 | 10.00±1.34 | 2.50±0.67 | 2.64±0.74 |
WILT距离比固定权重的基线(WWL和WLOA)低一个数量级,size norm更适合mean pooling,dummy norm更适合sum pooling。
表2:ALI_k与预测性能的Spearman相关系数¶
| k | Mutagenicity (train/test) | ENZYMES (train/test) | Lipophilicity (train/test) |
|---|---|---|---|
| 1 | 0.66/0.70 | 0.89/0.49 | -0.65/-0.57 |
| 5 | 0.65/0.69 | 0.87/0.50 | -0.63/-0.56 |
| 10 | 0.63/0.68 | 0.87/0.47 | -0.62/-0.56 |
| 20 | 0.61/0.67 | 0.85/0.46 | -0.60/-0.55 |
分类任务(Mutagenicity, ENZYMES)上ALI越高准确率越高,回归任务(Lipophilicity)上ALI越高RMSE越低,关系一致。
关键发现¶
- MPNN距离与功能距离对齐,而非结构距离:训练MPNN后,其嵌入距离自然与任务相关的功能距离对齐,且对齐程度与性能高度正相关。先前工作关注的结构距离对齐既不随训练改善,也与性能无关。
- 仅少量关键子图决定MPNN距离:WILT边权分布严重偏斜向零。即使用L1正则化将95%的边权置零,\(d_{\text{WILT}}\) 仍优于固定权重基线。说明MPNN依赖极少数WL颜色来定义嵌入距离。
- 识别出的关键子图与领域知识吻合:在Mutagenicity数据集上,最大权重对应的WL颜色代表epoxide和aliphatic halide等已知致突变官能团(Kazius et al., 2005),验证了MPNN学到了有意义的化学知识。
亮点与洞察¶
- 优雅的理论框架:将MPNN距离分析从二值表达力扩展到度量空间分析,通过WILT上的最优传输建立了可解释的桥梁。等价表示使得本需立方复杂度的Wasserstein距离降为线性时间计算。
- 统一两种经典图核:WILT距离作为参数化框架统一了Wasserstein WL核和WL最优分配核,二者分别是特殊权重配置下的特例,揭示了不同图核之间的内在联系。
- 全局解释能力:与大多数实例级GNN解释方法不同,WILT提供全局的度量空间解释,识别出在所有图对距离中起决定性作用的子图模式。适用于分类和回归任务。
局限性¶
- 仅实验了GCN和GIN两种架构的固定超参数配置,未验证对其他GNN架构或不同超参数的泛化性
- 仅分析了MPNN最终层的嵌入距离,中间层的距离演化未被探索
- WILT受限于1-WL颜色层次,对更高阶GNN的适用性需要进一步研究
- 实验数据集规模较小(Mutagenicity ~4337, ENZYMES 600),在大规模图上的可扩展性需验证
- 当前方法仅适用于图级任务,节点分类任务上的适用性尚待开发
相关工作与启发¶
- GNN度量分析:Chuang & Jegelka (2022) 的Tree Mover's Distance和Böker et al. (2024) 的细粒度表达力工作关注结构距离,本文挑战了这一范式,转向功能距离。
- GNN可解释性:与GNNExplainer等实例级方法不同,本文走全局蒸馏路线(类似GraphChef),但聚焦于度量结构而非决策边界。
- 图核方法:WILT统一了WWL核和WLOA核,提示可训练的图核设计可能兼具可解释性和高性能。
- 启发:这种"先训练黑箱模型→再蒸馏到可解释结构"的范式值得推广到其他领域。功能距离 vs 结构距离的对比思路对理解表示学习本质有启发意义。
评分¶
| 维度 | 分数 | 说明 |
|---|---|---|
| 新颖性 | 8/10 | 从度量空间角度理解MPNN,WILT概念新颖且统一经典图核 |
| 技术深度 | 9/10 | 理论分析扎实,表达力定理严谨,线性时间算法优美 |
| 实验充分性 | 7/10 | 数据集和架构偏少,但定量定性结果互相支撑 |
| 实用价值 | 7/10 | 为GNN解释提供了全局视角,化学领域验证有说服力 |
| 写作质量 | 8/10 | 结构清晰,问题驱动,图示直观 |
| 总评 | 8/10 | 从理论和实证两个角度出色地揭示了MPNN嵌入空间的度量结构 |
相关论文¶
- [ICML 2025] Mixed-Curvature Decision Trees and Random Forests
- [ICML 2025] Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees
- [ACL 2025] Predicate-Conditional Conformalized Answer Sets for Knowledge Graph Embeddings
- [ICLR 2026] Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs
- [ICML 2025] CoDy: Counterfactual Explainers for Dynamic Graphs