Morpher: Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?¶

会议: ACL 2025
arXiv: 2412.08174
代码: https://github.com/Violet24K/Morpher
领域: 其他
关键词: GNN, LLM alignment, multi-modal prompt learning, graph-text, zero-shot graph classification

一句话总结¶

提出 Morpher，首个图-文多模态 prompt learning 范式——在冻结 GNN 和 LLM 参数的前提下，同时学习图 prompt 和文本 prompt + 跨模态投影器，用极弱文本监督（仅类别名几个词）将 GNN 表征对齐到 LLM 语义空间，首次实现 GNN 的 CLIP 式零样本图分类。

研究背景与动机¶

领域现状：CLIP 在视觉领域成功证明了与文本对齐可增强编码器的迁移性，已扩展到视频/3D/语音。但图数据的 CLIP 式对齐仅在分子领域和文本属性图上探索过（因为配对数据充足）。
现有痛点：一般图数据跃三大挑战：(1) 数据极稀缺且文本监督极弱（标签仅几个词）；(2) 任务跨节点/边/图多层级；(3) 同结构在不同领域含义不同。联合预训练不现实。
核心矛盾：如何在有限下游数据（少样本 + 弱文本）下将预训练 GNN 适配到语义嵌入空间？
切入角度：(1) LLM 的嵌入空间天然是高质量语义空间（无需联合预训练）；(2) 数据有限时 prompt learning 比 fine-tuning 更优。→ 用 prompt 桥接独立预训练的 GNN 和 LLM。

方法详解¶

整体框架¶

冻结 GNN \(f^g_\phi\) + 冻结 LLM \(f^t_\phi\) → 同时学习图 prompt \(P^g_\theta \in \mathbb{R}^{n_g \times d}\)（作为新节点插入原图）+ 文本 prompt \(P^t_\theta \in \mathbb{R}^{n_t \times d_t}\)（拼接到类别名 embedding 前）+ 跨模态投影器 → 少样本对比学习对齐。

关键设计¶

改进的图 prompt:
现有图 prompt (Sun et al. 2023) 将 prompt token 作为新节点插入图中，但跨连接（prompt-输入）远多于内连接（prompt-prompt），导致训练不稳定。
Morpher 平衡跨连接和内连接数量（类似 NLP 中注意力的平衡），稳定优化。
双模态 prompt learning:
图侧：图 prompt 插入原图 → GNN 编码 → mean pooling 得图表征。
文本侧：文本 prompt 拼接类别名 embedding → LLM 编码 → 类别表征。
跨模态投影器将图表征投影到 LLM 空间 → cosine 相似度匹配类别。
设计动机：叕模态 prompt 只能调整一侧，双模态同时调整两侧更有效。
零样本图分类原型:
训练后，对于未见类别，只需提供类别名文本 → LLM 编码得类别表征 → 与图表征 cosine 匹配。
这是 GNN 领域首个 CLIP 式零样本分类原型。

实验关键数据¶

主实验¶

设置	Morpher vs 基线	说明
Few-shot	显著优于	双模态 prompt 比单模态更有效
多任务层级	显著优于	节点/边/图级别任务都有效
跨域	显著优于	从一个学坟数据集迁移到另一个
零样本未见类	首次实现	GNN 真正"学会了语言"

关键发现¶

双模态 > 单模态 prompt：在所有设置下一致优于仅图 prompt 或仅文本 prompt。
图 prompt 平衡设计关键：机械地将所有 prompt 节点连到所有输入节点会导致不稳定优化，平衡是待解决的关键问题。
零样本可行：证明了即使文本监督极弱（仅类别名），GNN 也能通过对齐学到语义关联。

亮点与洞察¶

"极弱文本监督下的跨模态对齐"是重要贡献：证明了不需要大规模配对数据，只需几个词的类别名就能桥接两个独立预训练的编码器。
CLIP 范式向图领域的推广：开辟了图数据的泛化能力提升的新方向。
LLM 嵌入空间作为通用语义锶点：无需联合预训练，直接用 LLM 的嵌入空间作为对齐目标。

局限性 / 可改进方向¶

仅在小规模图数据集上验证，大规模图上的可扩展性未测试。
零样本能力受限于 LLM 语义空间的质量和类别名的语义丰富度。
图 prompt 的节点数 \(n_g\) 和连接策略需手动调参。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个图-文多模态 prompt learning + 首个 GNN 零样本分类
实验充分度: ⭐⭐⭐⭐ few-shot + 多任务 + 跨域 + 零样本
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图 prompt 分析深入
价值: ⭐⭐⭐⭐⭐ 为图数据引入语言理解开辟新方向