TINED: GNNs-to-MLPs by Teacher Injection and Dirichlet Energy Distillation¶

会议: ICML 2025
arXiv: 2412.11180
代码: https://github.com/scottjiao/TINED_ICML25/
领域: 图学习
关键词: GNN蒸馏, GNN-to-MLP, Teacher Injection, Dirichlet Energy, 推理加速

一句话总结¶

提出 TINED，将 GNN 中特征变换（FT）的参数直接注入 MLP（Teacher Injection），并用 Dirichlet 能量蒸馏传递 GNN 层中 FT 与图传播（GP）的对立平滑特性，在 7 个数据集上超越 GNN 教师，推理速度提升 94 倍。

研究背景与动机¶

现有痛点¶

现有痛点：GNN 消息传递需多跳邻域数据，在延迟敏感场景中难以部署。

2. 现有蒸馏的不足¶

GLNN 仅用软标签蒸馏，忽略 GNN 层内部的细粒度知识。

3. 关键观察¶

FT 在计算上等价于 MLP 的 FC 层
FT 和 GP 在平滑效果上呈对立：GP 激进平滑，FT 保守甚至多样化

方法详解¶

整体框架¶

Teacher Injection：将 GNN FT 的参数直接移植到 MLP FC 层，再微调
Dirichlet Energy Distillation：用 DE ratio 传递 FT/GP 的对立平滑特性到 MLP

关键设计¶

1. Teacher Injection¶

FT 和 FC 数学形式相同：\(h' = \sigma(Wh + b)\)
直接复制参数，用另一个 FC 层模拟 GP
理论证明 GP 可被 FC 近似，误差与图拉普拉斯特征值相关

2. Dirichlet Energy Distillation¶

DE ratio > 1 表示保守（多样化），< 1 表示激进（平滑）
蒸馏损失让 MLP 各层 DE ratio 匹配 GNN 对应层

实验关键数据¶

主实验：节点分类¶

方法	Citeseer	Cora	PubMed	速度
GCN Teacher	73.1%	81.5%	79.0%	1x
MLP	61.2%	60.0%	71.4%	94x
GLNN	74.0%	81.6%	79.8%	94x
NOSMOG	75.5%	82.3%	80.5%	94x
TINED	77.0%	83.2%	81.3%	94x

消融实验¶

配置	Citeseer	说明
TINED 完整	77.0%	TI + DE
w/o TI	74.8%	退化为软标签
w/o DE	75.6%	失去平滑传递
仅软标签 (GLNN)	74.0%	基线

关键发现¶

Teacher Injection 贡献 +2.2%，DE Distillation 贡献 +1.4%
MLP 通过蒸馏可以超越 GNN 教师——"又快又好"
推理速度提升 94 倍

亮点与洞察¶

参数移植的巧妙：发现 FT = FC 等价性，直接移植而非间接蒸馏
对立平滑的发现：此前未被注意到的 GNN 内部结构性质
理论保证：GP -> FC 近似的误差界
超越教师：MLP 学生在多个数据集上超越 GNN 教师

局限与展望¶

仅测试节点分类任务，图级和边级任务待验证
对 GAT 等注意力 GNN 的适配性待研究
深层 GNN 中 DE ratio 的表现未充分探索
可结合 VQGraph 等结构感知方法进一步提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ FT=FC 等价性 + 对立平滑 + 层级蒸馏
实验充分度: ⭐⭐⭐⭐⭐ 7 个数据集 x 多种教师
写作质量: ⭐⭐⭐⭐⭐ 理论严谨、观察新颖
价值: ⭐⭐⭐⭐⭐ GNN 加速的高效方案