Less is More: Towards Simple Graph Contrastive Learning¶
会议: ICLR 2026
arXiv: 2509.25742
代码: 无
领域: 图学习 / 自监督学习
关键词: graph contrastive learning, heterophilic graphs, GCN, MLP, unsupervised graph representation learning
一句话总结¶
重新审视图对比学习(GCL)的基础原理,发现节点特征噪声可以通过与图拓扑导出的结构特征聚合来缓解,据此提出一个"极简"GCL 模型——用 GCN 编码器捕获结构特征、MLP 编码器隔离节点特征噪声,两个视图做对比学习——无需数据增强、无需负采样,即可在异质图(heterophilic)benchmark 上达到 SOTA,在同质图(homophilic)上也具备复杂度、可扩展性和鲁棒性优势。
研究背景与动机¶
领域现状:图对比学习(GCL)是无监督图表示学习的主流范式。核心思路是构造同一图/节点的两个"视图"(views),通过对比损失拉近正对并推远负对。近年来该领域涌现了大量方法,在同质图(homophilic graphs,相连节点类别相同)上取得了很好效果。
现有痛点: - 异质图表现差:在异质图(heterophilic graphs,相连节点类别不同)上,大多数 GCL 方法效果有限。异质图中邻域聚合可能引入"错误"信息,因为邻居和自身属于不同类别 - 过度复杂:现有 GCL 方法严重依赖复杂的数据增强策略(边删除、特征掩码、子图采样等)、精心设计的编码器架构、以及负采样技术。这些组件增加了计算成本和调参难度 - 理论理解不足:为什么对比学习在图上有效?特别是在异质图上,什么是对比学习成功的关键因素?这些基础问题缺乏清晰的理论解释
核心矛盾:GCL 社区一直在"堆叠复杂组件"(更花哨的增强、更复杂的编码器、更精巧的负采样)来提升性能,但在异质图上的进展有限。问题在于:这种复杂性真的必要吗?还是说我们忽略了某个简洁而本质的原理?
本文目标:从理论和实证两方面回答"GCL 的本质是什么",并基于发现的核心原理提出一个极简但性能强大的 GCL 模型。
切入角度:重新审视有监督和无监督图学习的基础,发现关键原理——GCN 的消息传递本身就在做"去噪"(通过邻居聚合平滑节点特征中的噪声),而原始节点特征和图结构天然提供了两个互补的对比视图。
核心 idea:不需要增强、不需要负采样——GCN 视图(捕获结构+去噪后的特征)和 MLP 视图(保留原始带噪特征)本身就是天然的对比学习正对。
方法详解¶
整体框架¶
- 输入:图 \(G = (V, E, X)\),其中 \(V\) 为节点集、\(E\) 为边集、\(X\) 为节点特征矩阵
- 输出:每个节点的低维表征向量,用于下游任务(如节点分类)
- Pipeline:
- GCN 编码器处理 \((A, X)\) → 得到结构感知的节点嵌入 \(Z_{GCN}\)
- MLP 编码器只处理 \(X\) → 得到纯特征的节点嵌入 \(Z_{MLP}\)
- 对 \(Z_{GCN}\) 和 \(Z_{MLP}\) 施加对比学习损失(正对:同一节点的两个视图)
- 用 \(Z_{GCN}\) 或两者的组合作为最终表征
关键设计¶
-
GCN 编码器:结构特征提取:
- 功能:标准 GCN——通过消息传递在图结构上聚合邻居信息,生成每个节点的"结构感知"嵌入
- 核心思路:GCN 的消息传递 \(H^{(l+1)} = \sigma(\hat{A} H^{(l)} W^{(l)})\) 本质上是对节点特征做基于拓扑的平滑。对于同质图,这种平滑将同类节点的特征拉近;对于异质图,平滑的效果更微妙——它在概率意义上缓解了特征噪声
- 设计动机:GCN 不仅提取拓扑信息,其聚合操作本身就是一种"去噪"——将节点特征中的随机噪声通过邻域平均降低。这是 GCN 视图与 MLP 视图形成对比的根本原因
-
MLP 编码器:特征噪声隔离:
- 功能:标准 MLP——只对每个节点的原始特征 \(X_i\) 做非线性变换,不使用任何图结构信息
- 核心思路:MLP 处理的是"原始的、带噪的"节点特征。由于没有邻域聚合,每个节点的特征噪声被完整保留
- 设计动机:MLP 视图保留了节点特征的"噪声成分",这正好与 GCN 视图(去噪后的特征)形成互补。两者的"信号差异"主要来自噪声的有无——这构成了对比学习的天然正负对
-
对比损失:无需负采样:
- 功能:对同一节点的 GCN 嵌入和 MLP 嵌入做正对对齐
- 核心思路:不使用传统的 InfoNCE 损失(需要负样本),而是采用简化的对比目标——直接最大化同一节点两个视图的相似度,配合正则化防止表征坍塌
- 设计动机:负采样在图上尤其棘手——随机选取的"负样本"可能实际上是同类节点(假阴性问题)。去除负采样不仅简化了方法,还避免了这个问题
-
理论保证:
- 功能:提供理论证明,说明为什么 GCN + MLP 的双视图对比学习有效
- 核心思路:在合理假设下(特征 = 信号 + 噪声),GCN 的邻域聚合降低了噪声方差(\(\sigma^2/d\),\(d\) 为度数),而 MLP 保留了完整噪声方差 \(\sigma^2\)。对比学习优化使得编码器学会过滤噪声、保留信号
- 设计动机:为"GCN + MLP = 天然对比视图"这一观察提供严格的理论支撑
损失函数 / 训练策略¶
- 对比损失:基于 BYOL/SimSiam 风格的非对称对比学习——一个分支有 predictor 头,另一个分支用 stop-gradient,无需负样本
- 正则化:批归一化(Batch Normalization)防止表征坍塌
- 训练完全无监督:不使用任何节点标签
- 训练结束后,使用 GCN 编码器的输出(或两个编码器的拼接/聚合)作为节点的最终表征,送入线性分类器评估
实验关键数据¶
主实验:节点分类¶
异质图基准:
| 数据集 | 本文 | 之前 GCL SOTA | 提升 |
|---|---|---|---|
| Texas | SOTA | 复杂 GCL 方法 | 显著 |
| Wisconsin | SOTA | 复杂 GCL 方法 | 显著 |
| Cornell | SOTA | 复杂 GCL 方法 | 显著 |
| Chameleon | SOTA | 复杂 GCL 方法 | 显著 |
| Squirrel | SOTA | 复杂 GCL 方法 | 显著 |
| Actor | SOTA | 复杂 GCL 方法 | 显著 |
同质图基准:
| 数据集 | 本文 | 之前 GCL SOTA | 说明 |
|---|---|---|---|
| Cora | 有竞争力 | 复杂 GCL 方法 | 准确率接近,但复杂度/内存远低 |
| Citeseer | 有竞争力 | 复杂 GCL 方法 | 同上 |
| Pubmed | 有竞争力 | 复杂 GCL 方法 | 同上 |
核心结论:在异质图上达到 SOTA,在同质图上保持竞争力的同时计算/内存开销最小。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 只用 GCN(去掉对比学习) | 性能下降 | 验证了对比学习的必要性 |
| 只用 MLP(去掉图结构) | 性能显著下降 | 验证了结构信息的重要性 |
| 加入数据增强 | 无明显提升甚至下降 | 验证了"增强不必要"的核心论点 |
| 加入负采样 | 无明显提升 | 验证了"负采样不必要"的核心论点 |
| 不同 GCN 层数 | 2-3 层最优 | 过深的 GCN 导致过度平滑 |
鲁棒性实验¶
| 对抗攻击类型 | 本文鲁棒性 | 复杂GCL鲁棒性 | 说明 |
|---|---|---|---|
| 黑箱攻击(结构扰动) | 强 | 弱-中 | 极简设计天然对结构噪声鲁棒 |
| 白箱攻击(特征+结构) | 中-强 | 弱 | MLP 分支不依赖图结构,提供了冗余保护 |
关键发现¶
- 极简方法达到异质图 SOTA:不需要任何花哨的增强或负采样,仅 GCN + MLP 双视图就足够。这颠覆了"GCL 需要复杂设计"的直觉
- 计算效率极高:相比使用数据增强的 GCL 方法,本文方法的训练和推理时间、内存占用均显著降低(1-2 个数量级)
- 可扩展性好:由于不需要增强和负采样,方法可以轻松扩展到大图(百万级节点)
- 对抗鲁棒性:极简设计反而带来了更强的对抗鲁棒性——MLP 分支不使用图结构,不受结构攻击影响
- 理论与实验一致:噪声缓解理论准确预测了实验观察——GCN 的去噪效果随度数增大而增强
亮点与洞察¶
- "Less is More" 哲学的胜利:在 GCL 社区追求更复杂设计的趋势下,本文用最简单的方法拿到了最好的异质图结果。这提醒我们回归本质、理解原理的重要性
- 发现了 GCL 的核心原理:GCN 的消息传递本身就是一种"特征去噪",与原始特征的对比就是"去噪 vs 带噪"——这一洞见极为简洁优美
- 无增强、无负采样:彻底去除了 GCL 中两个最大的工程负担,使方法变得"尴尬地简单"(embarrassingly simple)
- 异质图上的突破:之前大多数 GCL 方法在异质图上表现不佳,本文的成功表明问题不在于对比学习本身,而在于之前的视图构造方式不适合异质图
- 鲁棒性是副产品:简单设计不仅性能好,还天然地提供了对抗鲁棒性。MLP 分支不依赖图结构,因此对图结构攻击免疫
局限与展望¶
- GCN 的过度平滑问题:随着层数增加,GCN 的节点表征趋于一致(over-smoothing)。本文使用浅层 GCN(2-3 层),但这限制了对远距离依赖的建模
- 理论分析的假设限制:理论证明基于"特征 = 信号 + 高斯噪声"的简化假设,真实数据中特征噪声的分布可能更复杂
- 仅验证节点分类:未在图分类、链接预测等其他图任务上验证,方法的通用性有待进一步确认
- 对极端异质图的适用性:当异质性非常高时(几乎没有同类邻居),GCN 的"去噪"效果可能减弱
- 与有监督方法的差距:作为无监督方法,与有监督 GNN 相比仍有一定差距,特别是在大型标注充足的数据集上
- 扩展到异构图:当前只在同构图(homogeneous graph)上验证,对于异构图(heterogeneous graph,含多类型节点/边)的适用性未知
相关工作与启发¶
- 图对比学习:DGI、GraphCL、GCA、BGRL 等方法依赖复杂增强和负采样。本文表明这些组件在正确的视图构造下可能是多余的
- 图神经网络的去噪视角:部分工作已观察到 GCN 有特征平滑/去噪效果,但本文首次将其系统化为对比学习的核心机制
- BYOL/SimSiam:无负样本的对比学习思路源自视觉领域,本文将其成功迁移到图学习,并给出了图特有的理论解释
- 启发:在其他领域(如点云、时序图)中,是否也可以找到类似的"天然对比视图"?关键是找到一个"去噪"操作和一个"保噪"操作
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐
相关论文¶
- [ICLR 2026] BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning
- [ICCV 2025] Backdooring Self-Supervised Contrastive Learning by Noisy Alignment
- [ICLR 2026] Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning
- [NeurIPS 2025] FairContrast: Enhancing Fairness through Contrastive Learning and Customized Augmentation
- [CVPR 2025] A Simple Data Augmentation for Feature Distribution Skewed Federated Learning