跳转至

Less is More: Towards Simple Graph Contrastive Learning

会议: ICLR 2026
arXiv: 2509.25742
代码: 无
领域: 图学习 / 自监督学习
关键词: graph contrastive learning, heterophilic graphs, GCN, MLP, unsupervised graph representation learning

一句话总结

重新审视图对比学习(GCL)的基础原理,发现节点特征噪声可以通过与图拓扑导出的结构特征聚合来缓解,据此提出一个"极简"GCL 模型——用 GCN 编码器捕获结构特征、MLP 编码器隔离节点特征噪声,两个视图做对比学习——无需数据增强、无需负采样,即可在异质图(heterophilic)benchmark 上达到 SOTA,在同质图(homophilic)上也具备复杂度、可扩展性和鲁棒性优势。

研究背景与动机

领域现状:图对比学习(GCL)是无监督图表示学习的主流范式。核心思路是构造同一图/节点的两个"视图"(views),通过对比损失拉近正对并推远负对。近年来该领域涌现了大量方法,在同质图(homophilic graphs,相连节点类别相同)上取得了很好效果。

现有痛点: - 异质图表现差:在异质图(heterophilic graphs,相连节点类别不同)上,大多数 GCL 方法效果有限。异质图中邻域聚合可能引入"错误"信息,因为邻居和自身属于不同类别 - 过度复杂:现有 GCL 方法严重依赖复杂的数据增强策略(边删除、特征掩码、子图采样等)、精心设计的编码器架构、以及负采样技术。这些组件增加了计算成本和调参难度 - 理论理解不足:为什么对比学习在图上有效?特别是在异质图上,什么是对比学习成功的关键因素?这些基础问题缺乏清晰的理论解释

核心矛盾:GCL 社区一直在"堆叠复杂组件"(更花哨的增强、更复杂的编码器、更精巧的负采样)来提升性能,但在异质图上的进展有限。问题在于:这种复杂性真的必要吗?还是说我们忽略了某个简洁而本质的原理?

本文目标:从理论和实证两方面回答"GCL 的本质是什么",并基于发现的核心原理提出一个极简但性能强大的 GCL 模型。

切入角度:重新审视有监督和无监督图学习的基础,发现关键原理——GCN 的消息传递本身就在做"去噪"(通过邻居聚合平滑节点特征中的噪声),而原始节点特征和图结构天然提供了两个互补的对比视图。

核心 idea:不需要增强、不需要负采样——GCN 视图(捕获结构+去噪后的特征)和 MLP 视图(保留原始带噪特征)本身就是天然的对比学习正对。

方法详解

整体框架

  • 输入:图 \(G = (V, E, X)\),其中 \(V\) 为节点集、\(E\) 为边集、\(X\) 为节点特征矩阵
  • 输出:每个节点的低维表征向量,用于下游任务(如节点分类)
  • Pipeline
  • GCN 编码器处理 \((A, X)\) → 得到结构感知的节点嵌入 \(Z_{GCN}\)
  • MLP 编码器只处理 \(X\) → 得到纯特征的节点嵌入 \(Z_{MLP}\)
  • \(Z_{GCN}\)\(Z_{MLP}\) 施加对比学习损失(正对:同一节点的两个视图)
  • \(Z_{GCN}\) 或两者的组合作为最终表征

关键设计

  1. GCN 编码器:结构特征提取

    • 功能:标准 GCN——通过消息传递在图结构上聚合邻居信息,生成每个节点的"结构感知"嵌入
    • 核心思路:GCN 的消息传递 \(H^{(l+1)} = \sigma(\hat{A} H^{(l)} W^{(l)})\) 本质上是对节点特征做基于拓扑的平滑。对于同质图,这种平滑将同类节点的特征拉近;对于异质图,平滑的效果更微妙——它在概率意义上缓解了特征噪声
    • 设计动机:GCN 不仅提取拓扑信息,其聚合操作本身就是一种"去噪"——将节点特征中的随机噪声通过邻域平均降低。这是 GCN 视图与 MLP 视图形成对比的根本原因
  2. MLP 编码器:特征噪声隔离

    • 功能:标准 MLP——只对每个节点的原始特征 \(X_i\) 做非线性变换,不使用任何图结构信息
    • 核心思路:MLP 处理的是"原始的、带噪的"节点特征。由于没有邻域聚合,每个节点的特征噪声被完整保留
    • 设计动机:MLP 视图保留了节点特征的"噪声成分",这正好与 GCN 视图(去噪后的特征)形成互补。两者的"信号差异"主要来自噪声的有无——这构成了对比学习的天然正负对
  3. 对比损失:无需负采样

    • 功能:对同一节点的 GCN 嵌入和 MLP 嵌入做正对对齐
    • 核心思路:不使用传统的 InfoNCE 损失(需要负样本),而是采用简化的对比目标——直接最大化同一节点两个视图的相似度,配合正则化防止表征坍塌
    • 设计动机:负采样在图上尤其棘手——随机选取的"负样本"可能实际上是同类节点(假阴性问题)。去除负采样不仅简化了方法,还避免了这个问题
  4. 理论保证

    • 功能:提供理论证明,说明为什么 GCN + MLP 的双视图对比学习有效
    • 核心思路:在合理假设下(特征 = 信号 + 噪声),GCN 的邻域聚合降低了噪声方差(\(\sigma^2/d\)\(d\) 为度数),而 MLP 保留了完整噪声方差 \(\sigma^2\)。对比学习优化使得编码器学会过滤噪声、保留信号
    • 设计动机:为"GCN + MLP = 天然对比视图"这一观察提供严格的理论支撑

损失函数 / 训练策略

  • 对比损失:基于 BYOL/SimSiam 风格的非对称对比学习——一个分支有 predictor 头,另一个分支用 stop-gradient,无需负样本
  • 正则化:批归一化(Batch Normalization)防止表征坍塌
  • 训练完全无监督:不使用任何节点标签
  • 训练结束后,使用 GCN 编码器的输出(或两个编码器的拼接/聚合)作为节点的最终表征,送入线性分类器评估

实验关键数据

主实验:节点分类

异质图基准

数据集 本文 之前 GCL SOTA 提升
Texas SOTA 复杂 GCL 方法 显著
Wisconsin SOTA 复杂 GCL 方法 显著
Cornell SOTA 复杂 GCL 方法 显著
Chameleon SOTA 复杂 GCL 方法 显著
Squirrel SOTA 复杂 GCL 方法 显著
Actor SOTA 复杂 GCL 方法 显著

同质图基准

数据集 本文 之前 GCL SOTA 说明
Cora 有竞争力 复杂 GCL 方法 准确率接近,但复杂度/内存远低
Citeseer 有竞争力 复杂 GCL 方法 同上
Pubmed 有竞争力 复杂 GCL 方法 同上

核心结论:在异质图上达到 SOTA,在同质图上保持竞争力的同时计算/内存开销最小。

消融实验

配置 关键指标 说明
只用 GCN(去掉对比学习) 性能下降 验证了对比学习的必要性
只用 MLP(去掉图结构) 性能显著下降 验证了结构信息的重要性
加入数据增强 无明显提升甚至下降 验证了"增强不必要"的核心论点
加入负采样 无明显提升 验证了"负采样不必要"的核心论点
不同 GCN 层数 2-3 层最优 过深的 GCN 导致过度平滑

鲁棒性实验

对抗攻击类型 本文鲁棒性 复杂GCL鲁棒性 说明
黑箱攻击(结构扰动) 弱-中 极简设计天然对结构噪声鲁棒
白箱攻击(特征+结构) 中-强 MLP 分支不依赖图结构,提供了冗余保护

关键发现

  • 极简方法达到异质图 SOTA:不需要任何花哨的增强或负采样,仅 GCN + MLP 双视图就足够。这颠覆了"GCL 需要复杂设计"的直觉
  • 计算效率极高:相比使用数据增强的 GCL 方法,本文方法的训练和推理时间、内存占用均显著降低(1-2 个数量级)
  • 可扩展性好:由于不需要增强和负采样,方法可以轻松扩展到大图(百万级节点)
  • 对抗鲁棒性:极简设计反而带来了更强的对抗鲁棒性——MLP 分支不使用图结构,不受结构攻击影响
  • 理论与实验一致:噪声缓解理论准确预测了实验观察——GCN 的去噪效果随度数增大而增强

亮点与洞察

  • "Less is More" 哲学的胜利:在 GCL 社区追求更复杂设计的趋势下,本文用最简单的方法拿到了最好的异质图结果。这提醒我们回归本质、理解原理的重要性
  • 发现了 GCL 的核心原理:GCN 的消息传递本身就是一种"特征去噪",与原始特征的对比就是"去噪 vs 带噪"——这一洞见极为简洁优美
  • 无增强、无负采样:彻底去除了 GCL 中两个最大的工程负担,使方法变得"尴尬地简单"(embarrassingly simple)
  • 异质图上的突破:之前大多数 GCL 方法在异质图上表现不佳,本文的成功表明问题不在于对比学习本身,而在于之前的视图构造方式不适合异质图
  • 鲁棒性是副产品:简单设计不仅性能好,还天然地提供了对抗鲁棒性。MLP 分支不依赖图结构,因此对图结构攻击免疫

局限与展望

  • GCN 的过度平滑问题:随着层数增加,GCN 的节点表征趋于一致(over-smoothing)。本文使用浅层 GCN(2-3 层),但这限制了对远距离依赖的建模
  • 理论分析的假设限制:理论证明基于"特征 = 信号 + 高斯噪声"的简化假设,真实数据中特征噪声的分布可能更复杂
  • 仅验证节点分类:未在图分类、链接预测等其他图任务上验证,方法的通用性有待进一步确认
  • 对极端异质图的适用性:当异质性非常高时(几乎没有同类邻居),GCN 的"去噪"效果可能减弱
  • 与有监督方法的差距:作为无监督方法,与有监督 GNN 相比仍有一定差距,特别是在大型标注充足的数据集上
  • 扩展到异构图:当前只在同构图(homogeneous graph)上验证,对于异构图(heterogeneous graph,含多类型节点/边)的适用性未知

相关工作与启发

  • 图对比学习:DGI、GraphCL、GCA、BGRL 等方法依赖复杂增强和负采样。本文表明这些组件在正确的视图构造下可能是多余的
  • 图神经网络的去噪视角:部分工作已观察到 GCN 有特征平滑/去噪效果,但本文首次将其系统化为对比学习的核心机制
  • BYOL/SimSiam:无负样本的对比学习思路源自视觉领域,本文将其成功迁移到图学习,并给出了图特有的理论解释
  • 启发:在其他领域(如点云、时序图)中,是否也可以找到类似的"天然对比视图"?关键是找到一个"去噪"操作和一个"保噪"操作

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文