跳转至

EchoLess: Label-Based Pre-Computation for Memory-Efficient Heterogeneous Graph Learning

会议: AAAI 2026
arXiv: 2511.11081
代码:
领域: 图学习 / 异构图神经网络
关键词: 异构图学习, 标签预计算, 训练标签泄露, 回声效应, 内存高效

一句话总结

Echoless-LP 通过分区聚焦的无回声传播(PFEP)消除标签预计算中多跳消息传递导致的训练标签泄露(回声效应),结合非对称分区方案(APS)和 PostAdjust 机制解决分区造成的信息损失和分布偏移,在保持内存高效的同时兼容任意消息传递方法,在多个异构图数据集上取得 SOTA 性能。

研究背景与动机

  1. 领域现状:异构图神经网络(HGNN)广泛用于异构图深度学习。端到端 HGNN(RGCN、HAN 等)需要重复消息传递,在大规模图上效率低下。预计算方法只在预处理阶段做一次消息传递,生成规则张量后用 MLP 做 mini-batch 训练,大幅提升效率。
  2. 核心痛点:基于标签的预计算方法会导致训练标签泄露——多跳消息传递中节点自身的标签信息传播回自己(回声效应)。训练时编码器依赖泄露的自标签信息,但测试节点无标签,导致泛化差。
  3. 现有方案的局限
  4. LastResidual-LP:强调高跳邻居信息减轻泄露,但高跳仍可能发生回声,只是部分缓解
  5. RemoveDiag-LP:对线性消息传递移除对角线阻断回声,但需显式计算多跳传播矩阵,当 K>2 时矩阵可能达 TB 级内存,且不兼容 RpHGNN 等复杂消息传递方法

方法详解

整体框架

Echoless-LP 包含三个操作阶段:

  1. Partition:将目标节点分为多个分区
  2. Partition-Focused Echoless Propagation (PFEP):对每个分区执行无回声传播
  3. Partition Output Merge:合并所有分区结果

关键设计

1. 分区聚焦无回声传播(PFEP)

核心思想:收集某节点的邻居信息时,将该节点的输入标签向量置零,完全避免自标签传播回自身。

具体实现:对每个分区 P_i 定义分区掩码 M_i,然后替换消息传递输入:

H_i = F_MP(diag(1 - M_i) * Y, G)

其中 F_MP 是任意消息传递算子。掩码 (1-M_i) 阻止当前分区节点的标签信息被使用,实现无回声传播。关键优势:消息传递本身不做修改,因此兼容任何方法。

2. 非对称分区方案(APS)

朴素的均匀随机分区会导致信息损失(每个邻居有 1/M 概率被掩码)。APS 的设计:

  • 将训练节点均匀随机分为 M 个分区
  • 将未标注节点(验证/测试)单独放入第 M+1 个分区
  • 处理未标注节点时只掩码未标注节点(本身无标签),因此不损失任何邻居标签信息

3. PostAdjust 机制

APS 的非对称性导致不同分区节点累积的邻居信息量级不同。解决方案:

  • 在输入中增加一列训练节点指示器
  • 消息传递后分离出保留比率 r_i 和内容 H_bar_i
  • 用全局最大保留比率归一化,确保所有节点的表示缩放到相同参考水平

4. 与特征预计算的集成

Echoless-LP 与骨干方法(NARS、SeHGNN、RpHGNN)的特征预计算并行工作:

  • 特征预计算收集 K_feat 个张量
  • 标签预计算收集 K 个张量(通过 Echoless-LP)
  • 两者合并输入编码器(如分层 MLP)做分类

5. 复杂度分析

  • 空间:O(F_MP) + O(NC),与骨干方法一致
  • 时间:O(M * F_MP) + O(NC),M 通常为 2-4,开销可控
  • 关键对比:RemoveDiag-LP 在 K>2 时可能 OOM(>TB),Echoless-LP 保持线性缩放

损失函数 / 训练策略

使用骨干方法自带的训练策略(交叉熵损失配 mini-batch 训练),基于验证集早停。关键超参数包括标签信息跳数 K 在 [1,8] 和分区数 M 在 [2,5]。

实验关键数据

主实验(节点分类)

方法 DBLP Macro-F1 OGBN-MAG Acc OAG-Venue NDCG OAG-L1 NDCG
RpHGNN(无标签) 95.23 52.07 53.31 87.80
LastResidual(RpHGNN) 95.27 45.88 49.65 87.48
RemoveDiag(RpHGNN) -- -- -- --
Echoless(RpHGNN) 95.39 54.04 54.72 88.11

RemoveDiag-LP 与 RpHGNN 不兼容(标记为 --),Echoless-LP 可无缝集成。

内存效率对比(OAG-Venue)

跳数 K RemoveDiag-LP Echoless-LP
2 60GB 60GB
3 OOM (>4TB) 60GB
4 OOM (>4TB) 60GB
5 OOM (>4TB) 70GB

消融实验

  • 去掉 PFEP:直接用标签做预计算,性能下降明显(回声效应导致标签泄露)
  • 去掉 APS:用均匀随机分区代替非对称分区,性能下降(未标注节点信息损失)
  • 去掉 PostAdjust:跳过分布偏移校正,性能下降

关键发现

  • M=2 在多数情况下已是最优,增大 M 并不总是有益(少量信息损失可能起正则化作用)
  • 在大规模图上(百万节点),Echoless-LP 可高效支持 K>2 的高跳传播,RemoveDiag-LP 则 OOM
  • LastResidual-LP 有时反而降低骨干性能(未彻底解决回声问题导致泄露加剧)
  • Echoless-LP 在 6 个数据集上 3 个骨干方法中取得最多最优/次优结果

亮点与洞察

  • 分区掩码的思路简洁巧妙——不修改消息传递本身,只在输入层做掩码即兼容任意方法
  • APS 将训练/未标注节点分开处理,确保测试节点零信息损失
  • PostAdjust 的保留比率归一化是通用技巧,可用于其他分区场景
  • 完整消除回声效应而非仅缓解,从根本上解决泛化问题

局限性 / 可改进方向

  • 时间复杂度为 M 倍骨干消息传递,虽然 M 较小(2-4),但在超大规模图上仍有额外开销
  • 分区方案未考虑图结构(如社区结构),基于图的智能分区可能进一步减少信息损失
  • 仅在节点分类任务上验证,链接预测和图分类的效果未探索
  • APS 中训练节点仍有 1/M 的信息损失,虽然对正则化可能有益但不可控

相关工作与启发

  • SeHGNN:通过元路径收集邻居信息的预计算方法,RemoveDiag-LP 的提出者
  • RpHGNN:用随机投影和特征归一化的复杂消息传递,仅 Echoless-LP 兼容
  • NARS:基于关系子图采样的预计算方法,Echoless-LP 的另一骨干
  • SIGN:同构图上的预计算方法先驱,按跳分别收集邻居信息

评分

维度 分数 (1-5)
创新性 4
理论深度 3
实验充分度 5
写作质量 4
实用性 5
总评 4.2