PKD: Preference-driven Knowledge Distillation for Few-shot Node Classification¶
会议: NeurIPS 2025
arXiv: 2510.10116
代码: https://github.com/GEEX-Weixing/PKD
领域: 图学习 / 少样本学习
关键词: 少样本节点分类, LLM-GNN协同, 知识蒸馏, RL教师选择, 文本属性图
一句话总结¶
PKD 框架协同 LLM 和多 GNN 教师做文本属性图少样本节点分类——GNN 偏好节点选择器(GNS)用 KL 散度不确定性选择需要 LLM 标注的节点,节点偏好 GNN 选择器(NGS)用 RL 为每个节点匹配最优 GNN 教师,在 9 个数据集上一致 SOTA(Cornell 87% vs 基线 59-82%)。
研究背景与动机¶
- 领域现状:文本属性图(TAG)上的少样本节点分类需要结合 LLM 的语言理解和 GNN 的图结构建模。现有方法要么用 LLM 生成标签再训练 GNN,要么用 adapter 对齐两者。
- 现有痛点:(a) LLM(decoder-only)和 GNN(encoder-only)的嵌入空间差异大,对齐困难;(b) 不同节点的局部拓扑差异大,单一 GNN 不能适配所有节点;(c) LLM 调用昂贵,不应对所有节点都用 LLM。
- 核心矛盾:需要 LLM 的世界知识但也需要 GNN 的结构感知,且两者计算代价和能力互补——如何智能分配?
- 本文要解决什么? (a) 选择哪些节点值得用 LLM 标注;(b) 为每个节点匹配最优 GNN 教师。
- 切入角度:双向偏好驱动——GNN 告诉 LLM"我不确定哪些节点",LLM 告诉 GNN"每个节点该用哪种消息传递"。
- 核心 idea 一句话:GNN 不确定性 → 选节点给 LLM 标注 + RL-LLM → 为每个节点选最优 GNN 教师 = 双向偏好驱动的 LLM-GNN 协同。
方法详解¶
整体框架¶
GNS 模块: \(B\) 个 GNN 教师各自预测 → KL 散度共识衡量不确定性 \(\delta_K(v)\) → 高不确定性节点 + KNN 邻居送 LLM 标注。NGS 模块: 微调 LLM 为 RL agent(PPO)→ 状态=节点语义/结构/预测特征 → 动作=选择哪个 GNN 教师 → 奖励=分类准确率+蒸馏损失。KD: 选中的教师指导学生 GNN。
关键设计¶
- GNN 偏好节点选择器(GNS):
- 做什么:选择需要 LLM 标注的节点
- 核心思路:\(\delta_K(v) = \sum_{i<j} [D_{KL}(f_{T_i}(v) \| f_{T_j}(v)) + D_{KL}(f_{T_j}(v) \| f_{T_i}(v))]\)——\(B\) 个 GNN 教师预测的 KL 散度总和衡量不确定性。高不确定性 = GNN 教师们不一致 = 需要 LLM 帮助。DNS: KNN 检索扩展邻域
-
设计动机:不是所有节点都需要昂贵的 LLM 调用,只有 GNN 处理不了的才需要
-
节点偏好 GNN 选择器(NGS):
- 做什么:为每个节点选择最优 GNN 教师
- 核心思路:微调 LLM 为 PPO agent。状态 = node prompt(语义+结构+预测属性)。动作 = 教师选择的概率分布 \(\pi_T\)。奖励 \(R = \eta(\mathcal{L}_{DL}' - \mathcal{L}_{CE}) + (1-\eta) A_{cc}\)——结合蒸馏损失改善和分类准确率
-
设计动机:不同拓扑的节点适合不同的消息传递模式——稠密区域适合多跳 GCN,稀疏区域适合注意力 GAT
-
GTA Prompt 微调:
- 做什么:让 LLM 理解图结构
- 核心思路:在 4 个图拓扑任务(连通性、度、环、文本生成)上微调 LLM,使其具备图结构感知能力
- 设计动机:原始 LLM 不懂图,需要 GTA prompt 注入图知识
损失函数 / 训练策略¶
- \(\mathcal{L}_{KD} = \alpha \cdot \text{soft KD} + \beta \cdot \text{hard label CE} + \gamma \cdot \text{entropy reg}\)
- PPO 优化 RL agent
- 支持 Llama-3.1, Qwen2.5, Mixtral 等多种 LLM
实验关键数据¶
主实验(5 labeled/class)¶
| 数据集 | PKD | 次优 | 提升 |
|---|---|---|---|
| Cornell | 87.0% | 82.0% (IceBerg) | +5.0% |
| Cora | 91.14% | 79.5% (PopT) | +11.6% |
| Washington | 83.74% | 79.76% (IceBerg) | +3.98% |
| Texas | 86.31% | 84.85% (FairGKD) | +1.46% |
9 个数据集上一致最佳或次佳。
消融实验¶
| 组件 | 去掉后效果 |
|---|---|
| GTA prompts | 图理解能力下降 |
| DNS 模块 | 邻居选择质量下降 |
| K-不确定性 | 随机选节点效果差 |
| 完整模型 | 最优 |
关键发现¶
- 不同 LLM backbone(Llama/Qwen/Mixtral)都有效,说明框架通用
- K-不确定性选择 > 随机选择,验证了智能节点分配的价值
- RL 教师选择 > 固定单一教师,节点拓扑多样性确实需要不同处理
亮点与洞察¶
- 双向偏好驱动巧妙利用了 LLM 和 GNN 各自的优势——GNN 知道"我不确定什么",LLM 知道"该怎么处理"
- RL 做教师选择比静态分配更灵活,能适应不同拓扑
局限性 / 可改进方向¶
- B 个 GNN 教师 + LLM 微调的计算开销大
- 仅节点级分类,未扩展到边/图级
- RL 训练可能不稳定
相关工作与启发¶
- vs GraphLLM: 直接用 LLM 替代 GNN,PKD 让两者协同
- vs TAPE: TAPE 用 LLM 生成文本特征给 GNN,PKD 双向交互更深
评分¶
- 新颖性: ⭐⭐⭐⭐ 双向偏好驱动 + RL 教师选择
- 实验充分度: ⭐⭐⭐⭐⭐ 9 数据集 + 3 LLM + 消融
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰
- 价值: ⭐⭐⭐⭐ 少样本图学习的实用方案
- LLM选节点+RL选GNN的双层偏好驱动——不同节点适合不同GNN架构
- 在少样本节点分类上超越SOTA,即使增加标签数量仍保持优势
- 该方法的核心创新在于设计思路的简洁性和有效性
- 实验结果充分验证了核心假设