Coarse-to-Fine Open-Set Graph Node Classification with Large Language Models¶

会议: AAAI2026
arXiv: 2512.16244
代码: sihuo-design/CFC
领域: medical_imaging
关键词: open-set classification, OOD detection, graph neural networks, large language models, node classification

一句话总结¶

提出 Coarse-to-Fine Classification (CFC) 框架，利用 LLM 的零样本推理能力为图节点开放集分类提供语义化 OOD 样本和潜在 OOD 标签空间，实现不仅检测 OOD 还能将其分类到具体未知类别的能力。

背景与动机¶

图神经网络 (GNN) 在闭集场景中表现优秀，但在真实部署中常遇到训练时未见过的类别（即 OOD 样本）。现有的开放集分类方法存在以下关键不足：

依赖合成/辅助 OOD 样本：需要大量生成样本，计算开销大且无法准确反映真实 OOD 分布
缺乏语义理解：生成样本或辅助数据不具备真正的语义含义，容易过拟合特定数据集
OOD 子空间过小：没有语义 OOD 样本导致 OOD 检测的决策边界过于尖锐
无法区分不同未知类：将所有未知类合并为一个 OOD 类别，在医疗诊断、欺诈检测等高风险场景中严重限制实用性

核心驱动问题：能否在没有 OOD 真实标签的情况下，将 OOD 检测扩展为 OOD 分类？

核心问题¶

本文将传统的开放集分类从 \((C+1)\) 类问题（\(C\) 个 ID 类 + 1 个 OOD 类）扩展为 \((C+u)\) 类问题（\(C\) 个 ID 类 + \(u\) 个 OOD 类），其中 \(u\) 在开放集场景中是未知的。需要解决两个关键挑战：

如何在没有标注信息的情况下近似 OOD 空间？
如何推导出有意义的未知类标签？

方法详解¶

CFC 框架包含三个核心阶段：

1. LLM 粗分类器 (Coarse Classifier)¶

将图数据映射到文本空间，利用 LLM 的专家知识进行 OOD 初检和潜在标签生成。根据 ID 标签空间的覆盖度设计两种检测策略：

Easy-Reject：当 ID 类只覆盖其主类别的小部分时使用（如 Cora, DBLP, WikiCS）。设计置信度感知 prompt，仅在 LLM 高度确信时标记为 OOD，同时生成异常类标签
Hard-Reject：当 ID 类覆盖主类别的大部分时使用（如 Citeseer）。先让 LLM 总结 ID 类的主类别，生成候选 OOD 标签空间，再基于扩展标签空间进行分类

置信度阈值设为 0.7，用于过滤噪声标注。

2. GNN 细分类器 (Fine Classifier)¶

基于粗分类器获得的语义 OOD 样本集 \(\mathcal{V}_{\text{ood}}\)，构建 \((C+1)\) 类 GNN 分类器：

去噪 (Denoising)：利用标签传播 \(\mathbf{Y}^{l(k)} = \mathbf{D}^{-1}\mathbf{A}\mathbf{Y}^{l(k-1)}\) 纠正 LLM 误判的 OOD 样本，每次迭代后重置 ID 训练节点标签，传播 \(K\) 轮后丢弃被重新预测为 ID 的 OOD 样本
OOD 数据增强：改进 Manifold Mixup，收集训练集中分类置信度低（靠近决策边界）的 \(K\) 个节点，与 OOD 样本中心进行隐层嵌入混合：\(\tilde{x}_i = \alpha \boldsymbol{h}_i^k + (1-\alpha)\boldsymbol{h}_c^k\)，超参 \(\alpha\) 控制生成样本与 OOD 样本的距离
联合训练：在 \(\mathcal{V}_{\text{train}} \cup \mathcal{V}_{\text{ood}}^a\) 上用交叉熵损失训练 GCN 分类器

3. OOD 分类¶

对细分类器检测出的 OOD 样本 \(\mathcal{V}_{\text{ood}}^f\)，利用粗分类阶段生成的潜在 OOD 标签空间：用 TF-IDF 等相似度度量合并相似类别、过滤样本过少的类别，获得后处理 OOD 标签空间；再通过 LLM prompt 对 OOD 样本进行最终分类标注。

理论分析¶

证明了 CFC 通过引入语义 OOD 样本，将 OOD 子空间维度从 \(\text{dim}(\mathcal{H}) - (C+1)\) 扩展到 \(\text{dim}(\mathcal{H} + \mathcal{H}') - (C+1)\)，从而产生更平滑、更平坦的 OOD 检测决策边界。

实验关键数据¶

数据集：Cora, Citeseer, WikiCS, DBLP（文本图）；Amazon-Computer, Amazon-Photo（非文本图）。每个数据集设定 \(u \geq 2\) 个 OOD 类。

OOD 检测性能（两个 OOD 类，overall accuracy）：

数据集	NodeSafe (次优)	CFC	提升
Cora	85.71%	90.00%	+4.3%
Citeseer	72.74%	77.21%	+4.5%
WikiCS	79.59%	80.44%	+0.9%
DBLP	76.21%	84.03%	+7.8%

OOD 分类准确率（使用 GPT-4o + post-OOD label space）：Cora 69.76%、Citeseer 70.30%、WikiCS 57.96%、DBLP 48.45%。

关键消融： - 即使不用去噪和 Mixup (CFC w/o D/M)，仅靠语义 OOD 样本已超越所有基线 - Cora 上 OOD 检测从 GCN_sigmoid 的 0% 提升到 CFC 的 95.74%

亮点¶

问题定义新颖：首次将图开放集分类从简单的 OOD 检测扩展到 OOD 分类，定义了 \((C+u)\) 类分类问题
语义 OOD 样本：不靠合成或辅助数据，而是利用 LLM 识别真正语义上属于分布外的样本，可解释性和实用性更强
框架通用性强：CFC 不仅适用于图数据，还可直接扩展到文本领域
理论支撑充分：从子空间维度和决策边界平滑性角度证明了语义 OOD 样本的优势
设计精巧：Easy-Reject/Hard-Reject 的双策略设计考虑了不同 ID 覆盖度场景

局限性 / 可改进方向¶

依赖 LLM 质量：粗分类阶段严重依赖 GPT-4o 等强 LLM，开源模型（如 Llama2-7b）检测能力明显较弱
文本属性图限制：非文本图需要额外的特征编码步骤将节点属性转为文本描述，增加了预处理复杂度
OOD 分类准确率有限：最高约 70%，在高风险场景中可能不够可靠
ID 分类略有下降：引入 OOD 检测后 ID 准确率有 2-5% 的下降（如 Cora 从 90.64% 降到 87.49%）
计算成本：需要多次调用 LLM API，实际部署成本不低
OOD 类数未知：\(u\) 的估计完全依赖 LLM 和后处理，缺乏更原则性的自动确定方法

与相关工作的对比¶

方法	是否需要合成 OOD	能否 OOD 分类	使用 LLM	图+文本通用
G²Pxy	是（代理未知节点）	否	否	否
GNNSafe	否（能量传播）	否	否	否
NodeSafe	否（能量传播）	否	否	否
GOLD	否（能量传播）	否	否	否
CFC	否（语义 OOD）	是	是	是

CFC 的核心区别在于利用 LLM 获取语义化的真实 OOD 样本，而非合成样本，且是唯一能够进行多类 OOD 分类的方法。

启发与关联¶

LLM 作为开放世界感知器：LLM 的零样本推理能力可以为传统模型提供分布外的语义信号，这一思路可推广到其他开放世界任务（如开放词汇检测、开放集分割）
粗到细策略的通用性：先用强但有噪声的信号做初筛，再用结构化模型做精细判别的思路，适用于标注预算有限的场景
医疗/安全场景的潜力：在欺诈检测、医疗诊断等需要区分不同未知异常类型的场景中有直接应用价值

评分¶

新颖性: ⭐⭐⭐⭐ — 首次定义图 OOD 分类问题，LLM+GNN 的粗到细框架设计独特
实验充分度: ⭐⭐⭐⭐ — 6 个数据集、多种 LLM、完整消融实验和理论分析
写作质量: ⭐⭐⭐⭐ — 问题阐述清晰，图示直观，方法描述系统
价值: ⭐⭐⭐⭐ — 解决了开放集分类中长期被忽视的 OOD 细分类问题，实用意义强