NN-Former: Rethinking Graph Structure in Neural Architecture Representation¶
会议: CVPR 2025
arXiv: 2507.00880
代码: https://github.com/XuRuihan/NNFormer
领域: 人体理解
关键词: 架构预测、NAS、图Transformer、兄弟节点、延迟预测
一句话总结¶
NN-Former 提出混合 GNN-Transformer 架构预测器,发现现有方法忽略了"兄弟节点"(共享父/子节点)的拓扑信息,通过 Adjacency-Sibling Multihead Attention (ASMA) 和 Bidirectional Graph Isomorphism FFN (BGIFFN) 在 NAS-Bench-101/201 上 Kendall's Tau 达 0.877/0.890,延迟预测 MAPE 降低 48-64%。
研究背景与动机¶
- 领域现状:神经架构搜索(NAS)中的性能预测器需要从架构图中预测精度或延迟。现有方法分为 GNN 类(GATES、GMAE-NAS)和 Transformer 类(NAR-Former V2、PINAT)。
- 现有痛点:(1) GNN 仅传播邻接信息,忽略了"兄弟"关系(如两个并行分支共享输入/输出);(2) Transformer 的全局注意力不区分不同类型的图结构关系;(3) 现有预测器在低数据量(0.02%训练)时精度不足。
- 核心矛盾:图结构中"兄弟关系"(如残差连接的两个分支)包含重要设计信息,但 \(A\) 矩阵中看不到(需要 \(AA^T\) 或 \(A^TA\)),现有方法全部遗漏。
- 本文目标:设计同时利用邻接和兄弟拓扑的混合预测器。
- 切入角度:用 \(AA^T\) 提取共享父节点的兄弟(如残差块的两条路径),用 \(A^TA\) 提取共享子节点的兄弟(如多输入汇聚)。
- 核心 idea:ASMA(4 头注意力各用不同拓扑 mask)+ BGIFFN(双向图卷积前馈网络)。
方法详解¶
整体框架¶
架构图 → one-hot 操作编码 + 正弦属性编码 → \(L\) 层 NN-Former(ASMA + BGIFFN)→ 全局池化 → MLP 预测精度或延迟。
关键设计¶
-
Adjacency-Sibling Multihead Attention (ASMA)
- 功能:同时建模邻接和兄弟四种拓扑关系
- 核心思路:4 个注意力头分别使用不同的拓扑 mask——Head 1: \((I+A)\) 前向邻接;Head 2: \((I+A^T)\) 后向邻接;Head 3: \((I+AA^T)\) 共父兄弟;Head 4: \((I+A^TA)\) 共子兄弟。各头:\(X_i = \sigma((Q_iK_i^T \circ Mask_i)/\sqrt{h})V_i\)
- 设计动机:标准 Transformer 的全局注意力把所有节点对等价处理——但在计算图中,相邻、父子、兄弟关系的重要性完全不同
-
Bidirectional Graph Isomorphism FFN (BGIFFN)
- 功能:在前馈网络中注入图结构信息
- 核心思路:\(H_g = \text{Concat}(\text{GC}(H, A), \text{GC}(H, A^T))\),正反两个方向的图卷积拼接,然后与原始特征融合:\(\text{BGIFFN}(H, A) = \text{ReLU}(HW_1 + H_g)W_2\)。不需要位置编码
- 设计动机:标准 FFN 独立处理每个节点——注入图卷积后 FFN 也能感知拓扑结构
-
无位置编码设计
- 功能:BGIFFN 自然提供了位置信息
- 核心思路:由于 BGIFFN 在每层都做正反图卷积,节点的位置信息通过多层传播被隐式编码
- 设计动机:图中的节点没有固定顺序(不像序列),传统位置编码不适用
损失函数 / 训练策略¶
L1 损失(精度预测)或 MAPE 损失(延迟预测)。AdamW 优化器。
实验关键数据¶
主实验¶
| 设定 | NAR-Former V2 | NN-Former | 提升 |
|---|---|---|---|
| NAS-101 (0.02%) | 0.663 | 0.709 | +6.9% |
| NAS-101 (1%) | 0.861 | 0.877 | +1.9% |
| NAS-201 (1%) | 0.752 | 0.804 | +6.9% |
| NAS-201 (10%) | 0.888 | 0.890 | +0.2% |
| 延迟-EfficientNet | 13.20 | 4.81 | -63.6% |
| 延迟-MnasNet | 7.16 | 2.54 | -64.5% |
消融实验¶
| 配置 | NAS-101 (0.1%) Tau | 说明 |
|---|---|---|
| w/o 兄弟 (仅邻接) | ~0.77 | 丢失关键信息 |
| w/o BGIFFN | ~0.78 | FFN 无图感知 |
| Cross-attention替代 | 0.804 | 次优 |
| Full NN-Former | 0.809 | 最优 |
关键发现¶
- 在低数据量(0.02%)下提升最大(+6.9%),说明兄弟信息对数据效率至关重要
- 延迟预测提升最惊人(48-64% MAPE降低),因为延迟直接受并行结构影响——兄弟关系恰好编码了并行性
- 不需要位置编码是一个工程优势——简化了设计且自然适配不同大小的图
亮点与洞察¶
- 兄弟节点的发现:\(AA^T\) 和 \(A^TA\) 提取的拓扑关系在 NAS 中被所有先前工作遗漏——简单但影响巨大
- 4 头拓扑注意力:每个头专注一种结构关系的设计比全局注意力更高效且更有效
- 延迟预测的实用价值:精度预测是研究导向,延迟预测是部署导向——NN-Former 在延迟上的巨大优势使其对模型部署更有价值
局限与展望¶
- 兄弟计算需要 \(O(n^2)\) 矩阵乘法(\(AA^T\), \(A^TA\)),对超大图可能成为瓶颈
- 主要在 cell-based 架构上测试,自定义架构(如 MoE、分支网络)未充分验证
- 4 个头的设计(各对应一种拓扑)是硬编码的——更多头或不同拓扑组合未探索
相关工作与启发¶
- vs NAR-Former V2: 纯 Transformer 方法,不区分拓扑类型。NN-Former 通过 ASMA 显式编码四种关系
- vs GATES/GMAE-NAS: GNN 方法仅传播邻接信息。NN-Former 通过兄弟关系弥补了 GNN 的盲区
评分¶
- 新颖性: ⭐⭐⭐⭐ 兄弟节点的发现和4头拓扑注意力有新意
- 实验充分度: ⭐⭐⭐⭐⭐ NAS-101/201精度+NNLQ延迟+全面消融
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 对NAS预测器有直接改进价值
相关论文¶
- [CVPR 2025] Dynamic Neural Surfaces for Elastic 4D Shape Representation and Analysis
- [NeurIPS 2025] Distribution Learning Meets Graph Structure Sampling
- [CVPR 2025] Structure-Aware Correspondence Learning for Relative Pose Estimation
- [CVPR 2025] Improve Representation for Imbalanced Regression through Geometric Constraints
- [CVPR 2025] Omni-ID: Holistic Identity Representation Designed for Generative Tasks