Relieving the Over-Aggregating Effect in Graph Transformers¶

会议: NeurIPS 2025
arXiv: 2510.21267
代码: https://github.com/sunjss/over-aggregating (有)
领域: 图学习 / Graph Transformer
关键词: Over-Aggregating, Graph Transformer, Attention Entropy, Wideformer, Linear Attention

一句话总结¶

发现了 Graph Transformer 中的 over-aggregating 现象——大量节点以近均匀注意力分数被聚合导致关键信息被稀释，提出 Wideformer 通过分割聚合+引导注意力来缓解，作为即插即用模块在 13 个数据集上一致提升骨干模型性能。

研究背景与动机¶

领域现状：Graph Transformer 通过全局注意力机制学习节点间的长距离依赖，克服了传统 GNN 的 over-smoothing 和 over-squashing 问题。为了处理大规模图，主要有 sparse attention 和 linear attention 两条路线。
现有痛点：Linear attention 方法（如 Performer、SGFormer、Polynormer）保持全局感受野但产生严重的信息稀释——当所有节点参与聚合时，注意力分数趋于均匀（高 attention entropy），目标节点无法区分哪些消息是重要的。
核心矛盾：全局注意力计算中，节点数越多，注意力分数越均匀（Theorem 3.1 证明 entropy 下界随 \(n\) 单调递增），关键消息被稀释（over-aggregating）。而 sparse attention 虽然缓解了此问题，却缩小了感受野。
本文要解决什么？：在保持全局感受野的同时缓解 over-aggregating。
切入角度：不减少输入节点数，而是将聚合分成多个并行子过程（cluster-wise aggregation），增加输出维度来保留更多信息。
核心 idea 一句话：将全局注意力的 all-to-one 聚合拆分为 cluster-to-one 的多路并行聚合，再通过引导机制让目标节点聚焦信息量最大的子集。

方法详解¶

整体框架¶

Wideformer 是一个即插即用模块，包含两步： 1. Dividing (分割聚合)：将源节点分成 \(m\) 个 cluster，每个 cluster 独立聚合 2. Guiding (引导注意力)：对 \(m\) 个聚合结果排序加权，让目标节点聚焦最有信息量的 cluster

输入：标准的 Q, K, V 特征
输出：每个目标节点的增强表示

关键设计¶

Cluster Center Selection (基于 K-Means++ 的变体):
做什么：在 query 空间中选择 \(m\) 个代表性的 cluster center
核心思路：用 Algorithm 1，初始选 query 特征和最大的节点为第一个 center，然后贪心选择与已有 center 最不相似的节点作为新 center
设计动机：选出的 center 之间差异最大化，使 cluster 分割有意义
Source Node Assignment:
做什么：将源节点分配到最相似的 cluster \(\mathbf{k}_i = \arg\max_j [(\mathbf{KC}^\top)_{i,j}]\)
核心思路：用 key 和 center 的相似度做 hard assignment
设计动机：高相似度节点聚在一起，每个 cluster 内的节点语义更一致，聚合更有区分度
Cluster-wise Aggregation + Guiding:
做什么：每个 cluster 独立做 attention 聚合，得到 \(m\) 个输出向量；按 cluster 与目标节点的注意力分数排序加权
核心思路：聚合输入量从 \(n\) 减到 \(n/m\)，attention entropy 自然降低；再对 \(m\) 个输出做二级注意力，保留全局信息
设计动机：小输入量聚合 + 二级排序 = 信息保留与区分度兼得

损失函数 / 训练策略¶

直接嵌入到骨干模型的训练流程中，不引入额外损失
复杂度依然是 \(O(n)\)（线性）
与 GraphGPS、SGFormer、Polynormer 三种骨干兼容

实验关键数据¶

主实验¶

数据集类型	骨干	原始	+ Wideformer	提升
Cora	Polynormer	86.03	86.23	+0.20
Citeseer	Polynormer	77.96	78.19	+0.23
Amazon Photo	Polynormer	95.47	95.52	+0.05
Minesweeper	Polynormer	97.13	97.20	+0.07

消融实验¶

配置	关键发现
直接 entropy 正则化	有效但需显式计算 \(O(n^2)\) 注意力矩阵，不可扩展
Only Dividing	降低了 entropy，验证了分割的有效性
Only Guiding	排序加权改善了信息聚焦
Dividing + Guiding (Wideformer)	两者配合效果最优

关键发现¶

Over-aggregating 是 linear attention graph transformer 的普遍问题，attention entropy 随节点数增加而增加（见 Theorem 3.1）
梯度分析（Eq. 3-4）解释了为什么 over-aggregating 难以通过训练自行缓解：小注意力分数导致弱梯度信号
Wideformer 在 13 个数据集上一致降低了 attention entropy 并提升了分类性能

亮点与洞察¶

发现新现象 (Over-Aggregating)：与 over-smoothing（GNN 层间）和 over-squashing（瓶颈边）不同，over-aggregating 发生在单步全局聚合中，是 graph transformer 特有的问题。
理论+梯度双重分析：不仅用 Theorem 3.1 证明了 entropy 下界随 \(n\) 单调增，还通过梯度分析解释了为什么模型训练无法自行缓解。
即插即用设计：Wideformer 不改变骨干架构，直接作为模块插入，实用性强。
与 over-smoothing/over-squashing 的区分论述很清晰，帮助社区理解图上的不同信息损失机制。

局限性 / 可改进方向¶

提升幅度相对温和：在一些数据集上提升不到 1%，说明 over-aggregating 不是所有场景的主要瓶颈
Cluster 数量 \(m\) 的选择：需要调参，且对不同数据集的最优值可能不同
Hard assignment：当前用 argmax 做 hard cluster 分配，可能不够灵活
可改进：探索 soft assignment；自适应调整 \(m\)；与 sparse attention 结合

评分¶

新颖性: ⭐⭐⭐⭐ 发现新现象+理论分析扎实
实验充分度: ⭐⭐⭐⭐ 13 个数据集，3 个骨干
写作质量: ⭐⭐⭐⭐ 问题定义和分析链路清晰
价值: ⭐⭐⭐⭐ 实用的即插即用模块，但提升幅度有限