🕸️ 图学习¶

🧪 ICML2025 · 31 篇论文解读

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks: 提出 Cognac——首个有效的 GNN 纠正性遗忘方法，通过交替执行图邻域对比遗忘（CoGN）和解耦梯度上升/下降（AC⚡DC），在仅识别 5% 被操纵实体时即可恢复接近 oracle（完全干净数据训练）的性能，比从头重训高效 8×。
A General Graph Spectral Wavelet Convolution via Chebyshev Order Decomposition: 提出 WaveGC——通过分离 Chebyshev 多项式的奇偶项构建严格满足可容许性条件的可学习图小波，结合矩阵值滤波核的多分辨率图谱卷积网络，在短程和长程图任务上均实现一致改进（VOC 上提升 15.7%）。
A Recipe for Causal Graph Regression: Confounding Effects Revisited: 首次系统性地将因果图学习从分类扩展到回归任务，通过增强型图信息瓶颈（Enhanced GIB）承认混淆子图的预测能力，并用对比学习替代依赖离散标签的因果干预方法，在图级 OOD 回归基准上显著超越现有方法。
Balancing Efficiency and Expressiveness: Subgraph GNNs with Walk-Based Centrality: 提出 HyMN——通过游走中心性（Subgraph Centrality）对子图 GNN 的子图包进行高效采样，仅需 1-2 个子图即可媲美全包 Subgraph GNN 的性能，同时将中心性作为结构编码进一步增强判别能力，使子图方法首次可扩展到数百倍更大的图。
Banyan: Improved Representation Learning with Explicit Structure: Banyan 通过纠缠层次树结构和对角化消息传递两大创新，仅用 14 个非嵌入参数就在语义文本相似度任务上超越了大规模 Transformer 模型，为低资源语言的语义表示学习提供了高效可行的替代方案。
Beyond Message Passing: Neural Graph Pattern Machine: 提出 Neural Graph Pattern Machine (GPM)，用随机游走采样图模式，通过语义路径与匿名路径的双编码器捕捉节点特征和拓扑结构，再用 Transformer 识别任务相关的关键模式，彻底绕过消息传递范式，在节点/边/图级任务上全面超越 SOTA。
CoDy: Counterfactual Explainers for Dynamic Graphs: 提出 CoDy——首个用于时序图神经网络（TGNN）的反事实解释方法，通过蒙特卡洛树搜索（MCTS）结合时空启发式策略高效探索可能的解释子图空间，在多个数据集上 AUFSC+ 提升 16%。
Diss-l-ECT: Dissecting Graph Data with Local Euler Characteristic Transforms: 提出 Local Euler Characteristic Transform (ℓ-ECT)，将经典 ECT 拓扑不变量扩展到图的局部邻域，为每个节点生成无损的拓扑-几何指纹，在节点分类任务（尤其是高异质性图）上超越标准 GNN，同时提供理论可逆性保证与可解释性。
Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis: 首次从"数据操作"角度为 Graph Prompt 提供完整理论框架：证明 Prompt 能通过模拟图数据变换将原始图映射到"桥接图"使冻结模型适配下游任务，并推导了单图/多图场景下的误差上界与分布。
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models: 提出 HippoRAG 2，通过将段落节点融入知识图谱、用 query-to-triple 深度上下文化链接、以及 LLM 驱动的识别记忆过滤，全面超越标准 RAG 在事实记忆、语义理解和关联推理三大维度的表现，向 LLM 的非参数化持续学习迈进一步。
Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models: 提出 Graph-constrained Reasoning (GCR)，通过将知识图谱编码为 KG-Trie 并嵌入 LLM 解码过程，实现零幻觉的忠实推理，在 KGQA 基准上达到 SOTA 且具备零样本跨图谱迁移能力。
Graph Attention is Not Always Beneficial: A Theoretical Analysis of Graph Attention Mechanisms via Contextual Stochastic Block Models: 本文通过上下文随机块模型（CSBM）理论分析了图注意力机制的有效性边界：当结构噪声大于特征噪声时 GAT 有效，反之 GCN 更优；并提出了首个多层 GAT 完美节点分类条件，将 SNR 要求从 \(\omega(\sqrt{\log n})\) 放宽到 \(\omega(\sqrt{\log n}/\sqrt[3]{n})\)。
GrokFormer: Graph Fourier Kolmogorov-Arnold Transformers: 提出 GrokFormer，通过傅里叶级数参数化的 Kolmogorov-Arnold 可学习激活函数，在图 Laplacian 的多阶谱上自适应学习滤波器基，同时具备 谱阶自适应 和 谱自适应 能力，是目前唯一在两个维度上都可学习的图 Transformer 滤波器。
HGOT: Self-supervised Heterogeneous Graph Neural Network with Optimal Transport: 提出 HGOT，首次将最优传输理论引入异质图自监督学习，用 branch view（元路径视图）与 central view（聚合视图）之间的 Fused Gromov-Wasserstein 传输计划替代传统对比学习中的数据增强与正负样本选取，在节点分类上平均提升超过 6%。
Hyperbolic-PDE GNN: Spectral Graph Neural Networks in the Perspective of A System of Hyperbolic Partial Differential Equations: 将消息传递建模为双曲偏微分方程组，证明节点特征的解空间由拉普拉斯矩阵的特征向量张成，从而将拓扑结构信息内嵌到节点表示中，并通过多项式近似建立与谱 GNN 的桥梁以增强其性能。
Is Complex Query Answering Really Complex?: 本文揭示了知识图谱复杂查询回答（CQA）现有基准中高达 98% 的"复杂"查询实际上可被简化为简单的单链接预测问题，由此导致研究进展被严重高估；作者提出了平衡采样的新基准（FB15k237+H、NELL995+H、ICEWS18+H），并引入混合求解器 CQD-Hybrid 验证了这一发现，在新基准上所有 SOTA 方法的 MRR 大幅下降（最多超过 30 个点）。
L-STEP: Learnable Spatial-Temporal Positional Encoding for Link Prediction: 提出 L-STEP，一种基于可学习时空位置编码的轻量级时序链接预测模型，通过离散傅里叶变换捕获位置编码的时序演化，用 MLP 替代 Transformer 注意力机制达到 SOTA 效果且运行更快。
LLM Enhancers for GNNs: An Analysis from the Perspective of Causal Mechanism Identification: 从因果机制识别的角度分析"LLM增强器+GNN"范式的内部机制，发现LLM增强器主要提供节点级/原始数据级信息，并据此提出注意力传输（AT）模块优化两者间的信息传递。
Machines and Mathematical Mutations: Using GNNs to Characterize Quiver Mutation Classes: 利用图神经网络 (GNN) 和可解释性技术研究箭图变异等价类问题，独立重新发现了 \(\tilde{D}\) 型箭图变异类的组合刻画定理，展示了 ML 作为数学研究工具的价值。
Mitigating Over-Squashing in Graph Neural Networks by Spectrum-Preserving Sparsification: 提出 GOKU（稠密化-稀疏化重连范式），通过将输入图视为未知稠密潜在图的谱稀疏器并求解逆稀疏化问题，在增强图连通性的同时显式保留拉普拉斯谱，有效缓解 GNN 的 over-squashing 问题。
Mixed-Curvature Decision Trees and Random Forests: 将经典决策树和随机森林算法从欧几里得空间推广到混合曲率乘积流形（hyperbolic × spherical × Euclidean），通过角度重参数化（angular reformulation）构造尊重流形几何的分裂准则，在 57 个分类/回归/链路预测任务上表现优异（29 个第一，41 个前二）。
GlycanAA: Modeling All-Atom Glycan Structures via Hierarchical Message Passing and Multi-Scale Pre-training: 提出 GlycanAA，首个全原子级糖链建模方法：将糖链表示为包含原子节点和单糖节点的异构图，通过层次消息传递捕获从局部原子交互到全局单糖交互的多尺度信息，并通过多尺度掩码预测预训练（PreGlycanAA）进一步增强，在 GlycanML 基准 11 个任务上获得第一。
Neural Graph Matching Improves Retrieval Augmented Generation in Molecular Machine Learning: 提出 MARASON，将神经图匹配（Neural Graph Matching）引入分子机器学习的检索增强生成（RAG）框架，通过可微分的碎片级对齐机制，把检索到的参考分子谱图信息有效融入目标分子的质谱预测中，在 NIST 数据集上将 top-1 检索准确率从 19% 提升到 28%。
On Measuring Long-Range Interactions in Graph Neural Networks: 首次从第一性原理出发形式化定义图任务中的"长距离交互"，推导出唯一满足四条公理的 range measure \(\hat{\rho}_u = \mathbb{E}_{v \sim I_u}[d_G(u,v)]\)，通过合成实验验证其有效性后，用该度量揭示 LRGB 基准中的 peptides 任务实际上是短距离的。
Open Your Eyes: Vision Enhances Message Passing Neural Networks in Link Prediction: 首次将视觉感知引入消息传递图神经网络(MPNN)，通过将子图可视化为图像并用视觉编码器提取视觉结构特征(VSF)，提出 GVN/E-GVN 框架，在 7 个链接预测基准上均达到 SOTA。
Positional Encoding meets Persistent Homology on Graphs: 理论证明图上位置编码（PE）和持续同调（PH）在区分非同构图方面互不可比，提出 PiPE（Persistence-informed Positional Encoding）通过消息传递网络统一两者，可证明比单独使用任一方法更具表达力，在 ZINC/Alchemy/DrugOOD/BREC 等多个基准上一致优于纯 PE 和纯 PH 基线。
TINED: GNNs-to-MLPs by Teacher Injection and Dirichlet Energy Distillation: 提出 TINED，将 GNN 中特征变换（FT）的参数直接注入 MLP（Teacher Injection），并用 Dirichlet 能量蒸馏传递 GNN 层中 FT 与图传播（GP）的对立平滑特性，在 7 个数据集上超越 GNN 教师，推理速度提升 94 倍。
Toward Data-centric Directed Graph Learning: An Entropy-driven Approach: 提出 EDEN（Entropy-driven Digraph Knowledge Distillation），从数据中心视角构建层级知识树（HKT），通过有向拓扑结构度量和节点互信息量化，揭示有向图中拓扑与节点属性的潜在关联，作为即插即用模块可为任意 DiGNN 带来平均 2-5% 的性能提升，在 14 个数据集和 4 个下游任务上取得 SOTA。
Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees: 提出 Task-Tree 作为统一学习实例，通过引入虚拟任务节点将节点/边/图级任务对齐到同一表示空间，配合重构目标预训练 GNN，构建图基础模型 GIT，在 32 个图、5 个领域上实现微调/上下文学习/零样本三种范式的跨域跨任务泛化。
Unifews: You Need Fewer Operations for Efficient Graph Neural Networks: Unifews 提出统一的逐元素稀疏化框架，将 GNN 的图传播和特征变换视为矩阵运算，基于幅值阈值同时剪枝图边和模型权重，通过谱图平滑理论给出有界近似误差保证，在十亿边级别图上实现高达 100x 加速且不损失精度。
WILTing Trees: Interpreting the Distance Between MPNN Embeddings: 本文发现MPNN学到的嵌入距离与任务相关的functional distance对齐（而非结构距离），并提出基于加权Weisfeiler-Leman标记树（WILT）的最优传输距离来蒸馏和解释MPNN距离，边权揭示了少量关键子图主导了嵌入空间的度量结构。