PKD: Preference-driven Knowledge Distillation for Few-shot Node Classification¶

会议: NeurIPS 2025
arXiv: 2510.10116
代码: https://github.com/GEEX-Weixing/PKD
领域: 图学习 / 少样本学习
关键词: 少样本节点分类, LLM-GNN协同, 知识蒸馏, RL教师选择, 文本属性图

一句话总结¶

PKD 框架协同 LLM 和多 GNN 教师做文本属性图少样本节点分类——GNN 偏好节点选择器（GNS）用 KL 散度不确定性选择需要 LLM 标注的节点，节点偏好 GNN 选择器（NGS）用 RL 为每个节点匹配最优 GNN 教师，在 9 个数据集上一致 SOTA（Cornell 87% vs 基线 59-82%）。

研究背景与动机¶

领域现状：文本属性图（TAG）上的少样本节点分类需要结合 LLM 的语言理解和 GNN 的图结构建模。现有方法要么用 LLM 生成标签再训练 GNN，要么用 adapter 对齐两者。
现有痛点：(a) LLM（decoder-only）和 GNN（encoder-only）的嵌入空间差异大，对齐困难；(b) 不同节点的局部拓扑差异大，单一 GNN 不能适配所有节点；(c) LLM 调用昂贵，不应对所有节点都用 LLM。
核心矛盾：需要 LLM 的世界知识但也需要 GNN 的结构感知，且两者计算代价和能力互补——如何智能分配？
本文要解决什么？ (a) 选择哪些节点值得用 LLM 标注；(b) 为每个节点匹配最优 GNN 教师。
切入角度：双向偏好驱动——GNN 告诉 LLM"我不确定哪些节点"，LLM 告诉 GNN"每个节点该用哪种消息传递"。
核心 idea 一句话：GNN 不确定性 → 选节点给 LLM 标注 + RL-LLM → 为每个节点选最优 GNN 教师 = 双向偏好驱动的 LLM-GNN 协同。

方法详解¶

整体框架¶

GNS 模块: \(B\) 个 GNN 教师各自预测 → KL 散度共识衡量不确定性 \(\delta_K(v)\) → 高不确定性节点 + KNN 邻居送 LLM 标注。NGS 模块: 微调 LLM 为 RL agent（PPO）→ 状态=节点语义/结构/预测特征 → 动作=选择哪个 GNN 教师 → 奖励=分类准确率+蒸馏损失。KD: 选中的教师指导学生 GNN。

关键设计¶

GNN 偏好节点选择器（GNS）:
做什么：选择需要 LLM 标注的节点
核心思路：\(\delta_K(v) = \sum_{i<j} [D_{KL}(f_{T_i}(v) \| f_{T_j}(v)) + D_{KL}(f_{T_j}(v) \| f_{T_i}(v))]\)——\(B\) 个 GNN 教师预测的 KL 散度总和衡量不确定性。高不确定性 = GNN 教师们不一致 = 需要 LLM 帮助。DNS: KNN 检索扩展邻域
设计动机：不是所有节点都需要昂贵的 LLM 调用，只有 GNN 处理不了的才需要
节点偏好 GNN 选择器（NGS）:
做什么：为每个节点选择最优 GNN 教师
核心思路：微调 LLM 为 PPO agent。状态 = node prompt（语义+结构+预测属性）。动作 = 教师选择的概率分布 \(\pi_T\)。奖励 \(R = \eta(\mathcal{L}_{DL}' - \mathcal{L}_{CE}) + (1-\eta) A_{cc}\)——结合蒸馏损失改善和分类准确率
设计动机：不同拓扑的节点适合不同的消息传递模式——稠密区域适合多跳 GCN，稀疏区域适合注意力 GAT
GTA Prompt 微调:
做什么：让 LLM 理解图结构
核心思路：在 4 个图拓扑任务（连通性、度、环、文本生成）上微调 LLM，使其具备图结构感知能力
设计动机：原始 LLM 不懂图，需要 GTA prompt 注入图知识

损失函数 / 训练策略¶

\(\mathcal{L}_{KD} = \alpha \cdot \text{soft KD} + \beta \cdot \text{hard label CE} + \gamma \cdot \text{entropy reg}\)
PPO 优化 RL agent
支持 Llama-3.1, Qwen2.5, Mixtral 等多种 LLM

实验关键数据¶

主实验（5 labeled/class）¶

数据集	PKD	次优	提升
Cornell	87.0%	82.0% (IceBerg)	+5.0%
Cora	91.14%	79.5% (PopT)	+11.6%
Washington	83.74%	79.76% (IceBerg)	+3.98%
Texas	86.31%	84.85% (FairGKD)	+1.46%

9 个数据集上一致最佳或次佳。

消融实验¶

组件	去掉后效果
GTA prompts	图理解能力下降
DNS 模块	邻居选择质量下降
K-不确定性	随机选节点效果差
完整模型	最优

关键发现¶

不同 LLM backbone（Llama/Qwen/Mixtral）都有效，说明框架通用
K-不确定性选择 > 随机选择，验证了智能节点分配的价值
RL 教师选择 > 固定单一教师，节点拓扑多样性确实需要不同处理

亮点与洞察¶

双向偏好驱动巧妙利用了 LLM 和 GNN 各自的优势——GNN 知道"我不确定什么"，LLM 知道"该怎么处理"
RL 做教师选择比静态分配更灵活，能适应不同拓扑

局限性 / 可改进方向¶

B 个 GNN 教师 + LLM 微调的计算开销大
仅节点级分类，未扩展到边/图级
RL 训练可能不稳定

评分¶

新颖性: ⭐⭐⭐⭐ 双向偏好驱动 + RL 教师选择
实验充分度: ⭐⭐⭐⭐⭐ 9 数据集 + 3 LLM + 消融
写作质量: ⭐⭐⭐⭐ 框架描述清晰
价值: ⭐⭐⭐⭐ 少样本图学习的实用方案
LLM选节点+RL选GNN的双层偏好驱动——不同节点适合不同GNN架构
在少样本节点分类上超越SOTA，即使增加标签数量仍保持优势
该方法的核心创新在于设计思路的简洁性和有效性
实验结果充分验证了核心假设