Posterior Label Smoothing for Node Classification¶

会议: AAAI 2026
arXiv: 2406.00410
代码: https://github.com/ml-postech/PosteL
领域: 图学习
关键词: Label Smoothing, 节点分类, 后验分布, 同质/异质图, 伪标签迭代

一句话总结¶

提出PosteL（Posterior Label Smoothing），通过贝叶斯后验分布从邻域标签中推导soft label用于节点分类，自然适应同质图和异质图，在8种backbone×10个数据集的80个组合中76个取得精度提升。

研究背景与动机¶

领域现状：Label smoothing（向one-hot标签添加uniform噪声）在CV和NLP中广泛使用，但在图节点分类中很少研究。Knowledge distillation的soft label能编码"dark knowledge"提升学生模型性能。
现有痛点：现有的图label smoothing方法（SALS、ALS）假设节点倾向于与邻居有相同标签，直接聚合邻域标签作为soft label。这在同质图上有效，但在异质图上反而有害——因为异质图中邻居标签恰好与目标节点不同。
核心矛盾：需要一个label smoothing方法能同时适应同质图（邻居=同标签）和异质图（邻居≠同标签），现有方法只处理前者。
切入角度："You can tell a person by the company they keep"——从邻域标签的全局统计推导后验分布，同质图下后验偏向多数邻居标签，异质图下后验偏向少数邻居标签。
核心idea一句话：用贝叶斯后验分布（基于全局label共现统计）推导的soft label，自然适应同质和异质图

方法详解¶

整体框架¶

给定图 \(\mathcal{G}=(\mathcal{V},\mathcal{E},X)\) 和训练节点标签，PosteL分两步： 1. 用贝叶斯后验从邻域标签+全局统计推导每个训练节点的soft label 2. 迭代伪标签：用模型预测更新未标注节点标签，重新估计全局统计，再推导更好的soft label

关键设计¶

后验标签平滑:
做什么：为每个节点推导基于邻域的soft label
核心思路：\(P(\hat{Y}_i=k|\{Y_j\}_{j\in\mathcal{N}(i)}) \propto P(\{Y_j\}|\hat{Y}_i=k) \cdot P(\hat{Y}_i=k)\)。假设邻居标签条件独立，似然分解为各邻居的条件概率乘积。条件概率和先验都从图的全局标签共现统计估计。最终soft label = \(\alpha \cdot\) 后验 \(+ (1-\alpha) \cdot\) one-hot + \(\beta \cdot\) uniform
设计动机：Lemma 1证明在同质图下，多数邻居标签推高后验概率；Lemma 2证明在异质图下，少数邻居标签反而推高后验概率。这完美适配两种图类型
迭代伪标签:
做什么：用模型预测扩充label信息，改善全局统计估计
核心思路：训练GNN → 预测未标注节点 → 用伪标签更新似然和先验 → 重新推导soft label → 再训练
设计动机：稀疏图中很多节点没有已标注邻居，伪标签填补信息空缺

损失函数 / 训练策略¶

用推导的soft label替代one-hot label训练任意GNN backbone
交叉熵损失，1000 epochs，200 epochs early stopping
68/20/20 train/val/test split

实验关键数据¶

主实验¶

8种backbone × 10数据集，80个组合中76个提升（95%）。代表性结果：

模型+PosteL	Cora	CiteSeer	Chameleon	Squirrel	Texas
GCN	提升	提升	提升	提升	提升
GPR-GNN	提升	提升	提升	提升	提升
BernNet	提升	提升	提升	提升	提升

消融实验¶

配置	效果	说明
w/o 迭代伪标签	有效但低于完整版	全局统计不够准确
SALS (naive聚合)	同质图有效，异质图退化	不适应异质图
Uniform label smoothing	轻微提升	不利用图结构
PosteL (full)	76/80提升	最佳

关键发现¶

PosteL在异质图上的提升比同质图更显著——因为naive方法在异质图上完全失效，而PosteL通过后验自然适应
伪标签迭代在稀疏图（如Cornell，26%节点无标注邻居）上贡献最大
PosteL对所有8种backbone都有效，说明是真正通用的正则化技术（model-agnostic）

亮点与洞察¶

后验分布的巧妙应用：将label smoothing从"加noise"提升为"推导后验"，理论上证明了对同质/异质图的双重适应性
极其简单的实现：只需统计全局label共现频率→贝叶斯公式→soft label，无需额外参数或训练
95%的通过率（76/80）说明方法极其鲁棒，几乎可以作为GNN训练的标配技巧

局限性 / 可改进方向¶

条件独立性假设在密集图中可能不成立
只考虑了一阶邻居，多跳邻域的信息未利用
伪标签质量取决于初始模型性能，如果初始模型很差可能引入噪声

评分¶

新颖性: ⭐⭐⭐⭐ 后验label smoothing概念简单优雅，理论证明solid
实验充分度: ⭐⭐⭐⭐⭐ 8模型×10数据集，80个组合，覆盖非常全面
写作质量: ⭐⭐⭐⭐ 理论与实验结合好，toy example直观
价值: ⭐⭐⭐⭐ 简单通用的GNN正则化技巧，实际价值高