NN-Former: Rethinking Graph Structure in Neural Architecture Representation¶

会议: CVPR 2025
arXiv: 2507.00880
代码: https://github.com/XuRuihan/NNFormer
领域: 人体理解
关键词: 架构预测、NAS、图Transformer、兄弟节点、延迟预测

一句话总结¶

NN-Former 提出混合 GNN-Transformer 架构预测器，发现现有方法忽略了"兄弟节点"（共享父/子节点）的拓扑信息，通过 Adjacency-Sibling Multihead Attention (ASMA) 和 Bidirectional Graph Isomorphism FFN (BGIFFN) 在 NAS-Bench-101/201 上 Kendall's Tau 达 0.877/0.890，延迟预测 MAPE 降低 48-64%。

研究背景与动机¶

领域现状：神经架构搜索（NAS）中的性能预测器需要从架构图中预测精度或延迟。现有方法分为 GNN 类（GATES、GMAE-NAS）和 Transformer 类（NAR-Former V2、PINAT）。
现有痛点：(1) GNN 仅传播邻接信息，忽略了"兄弟"关系（如两个并行分支共享输入/输出）；(2) Transformer 的全局注意力不区分不同类型的图结构关系；(3) 现有预测器在低数据量（0.02%训练）时精度不足。
核心矛盾：图结构中"兄弟关系"（如残差连接的两个分支）包含重要设计信息，但 \(A\) 矩阵中看不到（需要 \(AA^T\) 或 \(A^TA\)），现有方法全部遗漏。
本文目标：设计同时利用邻接和兄弟拓扑的混合预测器。
切入角度：用 \(AA^T\) 提取共享父节点的兄弟（如残差块的两条路径），用 \(A^TA\) 提取共享子节点的兄弟（如多输入汇聚）。
核心 idea：ASMA（4 头注意力各用不同拓扑 mask）+ BGIFFN（双向图卷积前馈网络）。

方法详解¶

整体框架¶

架构图 → one-hot 操作编码 + 正弦属性编码 → \(L\) 层 NN-Former（ASMA + BGIFFN）→ 全局池化 → MLP 预测精度或延迟。

关键设计¶

Adjacency-Sibling Multihead Attention (ASMA)
- 功能：同时建模邻接和兄弟四种拓扑关系
- 核心思路：4 个注意力头分别使用不同的拓扑 mask——Head 1: \((I+A)\) 前向邻接；Head 2: \((I+A^T)\) 后向邻接；Head 3: \((I+AA^T)\) 共父兄弟；Head 4: \((I+A^TA)\) 共子兄弟。各头：\(X_i = \sigma((Q_iK_i^T \circ Mask_i)/\sqrt{h})V_i\)
- 设计动机：标准 Transformer 的全局注意力把所有节点对等价处理——但在计算图中，相邻、父子、兄弟关系的重要性完全不同
Bidirectional Graph Isomorphism FFN (BGIFFN)
- 功能：在前馈网络中注入图结构信息
- 核心思路：\(H_g = \text{Concat}(\text{GC}(H, A), \text{GC}(H, A^T))\)，正反两个方向的图卷积拼接，然后与原始特征融合：\(\text{BGIFFN}(H, A) = \text{ReLU}(HW_1 + H_g)W_2\)。不需要位置编码
- 设计动机：标准 FFN 独立处理每个节点——注入图卷积后 FFN 也能感知拓扑结构
无位置编码设计
- 功能：BGIFFN 自然提供了位置信息
- 核心思路：由于 BGIFFN 在每层都做正反图卷积，节点的位置信息通过多层传播被隐式编码
- 设计动机：图中的节点没有固定顺序（不像序列），传统位置编码不适用

损失函数 / 训练策略¶

L1 损失（精度预测）或 MAPE 损失（延迟预测）。AdamW 优化器。

实验关键数据¶

主实验¶

设定	NAR-Former V2	NN-Former	提升
NAS-101 (0.02%)	0.663	0.709	+6.9%
NAS-101 (1%)	0.861	0.877	+1.9%
NAS-201 (1%)	0.752	0.804	+6.9%
NAS-201 (10%)	0.888	0.890	+0.2%
延迟-EfficientNet	13.20	4.81	-63.6%
延迟-MnasNet	7.16	2.54	-64.5%

消融实验¶

配置	NAS-101 (0.1%) Tau	说明
w/o 兄弟 (仅邻接)	~0.77	丢失关键信息
w/o BGIFFN	~0.78	FFN 无图感知
Cross-attention替代	0.804	次优
Full NN-Former	0.809	最优

关键发现¶

在低数据量（0.02%）下提升最大（+6.9%），说明兄弟信息对数据效率至关重要
延迟预测提升最惊人（48-64% MAPE降低），因为延迟直接受并行结构影响——兄弟关系恰好编码了并行性
不需要位置编码是一个工程优势——简化了设计且自然适配不同大小的图

亮点与洞察¶

兄弟节点的发现：\(AA^T\) 和 \(A^TA\) 提取的拓扑关系在 NAS 中被所有先前工作遗漏——简单但影响巨大
4 头拓扑注意力：每个头专注一种结构关系的设计比全局注意力更高效且更有效
延迟预测的实用价值：精度预测是研究导向，延迟预测是部署导向——NN-Former 在延迟上的巨大优势使其对模型部署更有价值

局限与展望¶

兄弟计算需要 \(O(n^2)\) 矩阵乘法（\(AA^T\), \(A^TA\)），对超大图可能成为瓶颈
主要在 cell-based 架构上测试，自定义架构（如 MoE、分支网络）未充分验证
4 个头的设计（各对应一种拓扑）是硬编码的——更多头或不同拓扑组合未探索

评分¶

新颖性: ⭐⭐⭐⭐ 兄弟节点的发现和4头拓扑注意力有新意
实验充分度: ⭐⭐⭐⭐⭐ NAS-101/201精度+NNLQ延迟+全面消融
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 对NAS预测器有直接改进价值