L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers¶

会议: CVPR 2025
arXiv: 2505.07300
代码: 无
领域: 优化
关键词: 神经架构搜索, 零样本NAS, Vision Transformer, 代理指标, 指标组合

一句话总结¶

本文提出L-SWAG指标，通过分层梯度方差和激活模式基数的乘积来表征CNN和ViT网络的可训练性和表达性，并设计LIBRA-NAS算法组合互补代理指标，在ViT搜索空间和14个任务上实现了SOTA级别的零样本NAS性能。

研究背景与动机¶

领域现状：零样本NAS使用零代价（ZC）代理指标在不训练模型的情况下评估网络架构质量，兼具时间效率和可解释性。
现有痛点：现有SOTA代理指标主要限于卷积搜索空间（如NAS-Bench-201），在Vision Transformer搜索空间上表现不佳，甚至不如简单的参数量指标。
核心矛盾：现有指标要么只考虑梯度（可训练性）、要么只考虑激活模式（表达性），单一维度不足以全面表征网络；且大多指标对所有层一视同仁，忽略了不同层梯度统计的差异性。
本文目标：设计一个同时适用于CNN和ViT搜索空间的通用代理指标，并开发智能指标组合方法。
切入角度：(1) 从理论分析ZiCO指标，证明应丢弃梯度均值只保留方差；(2) 实证发现不同层的梯度统计贡献差异巨大；(3) 结合表达性指标弥补纯梯度指标在ViT上的不足。
核心idea：分层梯度方差（可训练性）× 分层激活模式基数（表达性）= L-SWAG。

方法详解¶

整体框架¶

输入批次 + 随机初始化DNN → 提取分层梯度统计（仅方差，丢弃均值）→ 选择信息最丰富的层区间 → 计算可训练性分数 \(\Lambda^{\hat{L}}\) → 计算分层SWAP表达性分数 \(\Psi_{\mathcal{N},\theta}^{\hat{L}}\) → 两者相乘得L-SWAG → LIBRA-NAS组合多个指标。

关键设计¶

分层梯度方差指标（\(\Lambda^{\hat{L}}\)）:
- 功能：度量网络在选定层区间的可训练性。
- 核心思路：对每一层 \(l\) 计算梯度的样本间方差 \(\text{Var}(|\nabla_w \mathcal{L}|)\)，然后取倒数并对数求和。关键改进：(1) 理论证明（Theorem 1）应丢弃ZiCO中的梯度均值 \(\mu\)，改为常数1；(2) 通过分析1000个随机网络的分层梯度统计，发现只有特定层区间（\(\hat{l}\) 到 \(\hat{L}\)）的统计量有意义，只选这些层计算。
- 设计动机：ZiCO的 \(\mu/\sigma\) 比值在理论上不成立（Theorem 1证明 \(\mu\) 的贡献被学习率抵消），且所有层等权处理是次优的。
分层激活模式表达性（\(\Psi_{\mathcal{N},\theta}^{\hat{L}}\)）:
- 功能：度量网络在输入空间上的线性区域数量，反映表达能力。
- 核心思路：定义样本级激活模式（SWAP）——将每一层的后激活值二值化，得到激活模式集合，其基数即为表达性分数。首次将此方法从ReLU扩展到GeLU网络，使其适用于ViT。
- 设计动机：纯梯度指标在ViT搜索空间上失败，因为ViT的表达性差异是架构质量的重要区分因素。
LIBRA-NAS指标组合算法:
- 功能：智能组合多个代理指标以获得比单一指标更高的相关性。
- 核心思路：三步选择——(1) 选相关性最高的指标 \(z_{\text{best}}\)；(2) 通过信息增益选互补性最强的指标（条件互信息最低的）；(3) 选偏置最接近验证精度分布的指标进行偏置重对齐。最终用3个指标的组合替代单一指标进行NAS搜索。
- 设计动机：不同搜索空间可能偏好不同类型的指标，单一指标无法适配所有场景。

损失函数 / 训练策略¶

无训练（zero-shot），仅需一次前向传播和一次反向传播即可计算L-SWAG。LIBRA-NAS集成到NAS搜索中，在0.1 GPU天内找到ImageNet1k上测试错误率17.0%的架构。新构建的ViT评估基准包含2000个训练好的ViT模型，覆盖CIFAR-10、CIFAR-100、ImageNet16-120上的Autoformer搜索空间及三个训练策略（AE、Jigsaw、Normal）。

实验关键数据¶

主实验¶

指标	ViT (6任务平均ρ)	NAS-Bench-201 (平均ρ)	TransNasBench (平均ρ)
#Params	0.45	0.58	0.35
ZiCO	0.12	0.72	0.41
NWOT	0.38	0.65	0.28
L-SWAG	0.62	0.74	0.55

消融实验¶

配置	ViT平均ρ	说明
L-SWAG (full)	0.62	Λ × Ψ
仅 Λ (可训练性)	0.48	表达性贡献+0.14
仅 Ψ (表达性)	0.41	可训练性贡献+0.21
ZiCO (含μ)	0.12	丢弃μ大幅改善
全层 (非分层)	0.51	层选择贡献+0.11

关键发现¶

现有代理指标在ViT搜索空间上普遍退化，多数甚至不如参数量。
丢弃梯度均值μ在理论和实验上都被证实是正确的（Theorem 1证明μ的贡献被学习率η抵消，正确上界仅含σ²和((Mη-1)μ)²项）。
分层选择策略通过聚焦信息密集的层，显著提升了指标质量和计算效率。
可训练性和表达性的组合（乘法）对ViT至关重要——单独使用任一维度都不够。
LIBRA-NAS在0.1 GPU天内找到的架构（17.0%错误率）优于进化和梯度NAS方法。
LIBRA三步选择策略的消融：min IG选z₂一致优于max IG、随机和按类型分类选择；bias matching选z₃优于bias minimization和随机选择。
SWAP表达性指标成功从ReLU扩展到GeLU网络（二值化近似），使其适用于ViT。

亮点与洞察¶

理论驱动的指标设计：Theorem 1严格证明了ZiCO梯度均值项的不必要性——训练损失上界中μ的贡献被学习率η的选择所抵消，仅σ²项与可训练性真正相关。
分层分析的实用价值：1000个网络的分层梯度统计可视化直观展示了"哪些层重要"，启发式但非常有效。
LIBRA的通用性：指标组合框架不依赖于特定指标，可随时集成新的代理指标。
搜索空间构建：新建2000个ViT训练后的评估基准（覆盖6个任务），填补了ViT搜索空间中严格相关性分析的空白。

局限与展望¶

层选择的阈值需要对每个搜索空间预先分析确定，不是完全自动的。
在某些搜索空间（如NAS-Bench-201）上，L-SWAG相对于ZiCO的优势不大。
仅验证了分类任务，未扩展到检测、分割等任务。
未来可探索更自动化的层选择策略和更多ViT变体的支持。
SWAP表达性指标从ReLU到GeLU的扩展基于二值化近似，对其他激活函数（如SiLU/Swish）的适用性未验证。
LIBRA-NAS的三步选择策略中的互信息估计可能在小样本量下不够准确。
纠正了ZiCO原论文Theorem 3.1证明中的数学错误（从第四行到第五行缺少对\(i\)的求和，1/2因子未正确乘以所有项），给出了正确的训练损失上界。

评分¶

实现细节¶

在NB201、NB301、TransNasBench-101和自建Autoformer ViT搜索空间上评估。使用bert-base-uncased作为embedding模型，1×NVIDIA A100 GPU。 L-SWAG仅需一次前向+反向传播即可计算。 - 新颖性: ⭐⭐⭐⭐ 理论证明+分层分析+ViT扩展的组合新颖 - 实验充分度: ⭐⭐⭐⭐⭐ 14个任务、2000个ViT训练评估、详细消融 - 写作质量: ⭐⭐⭐⭐ 理论推导清晰，实验图表丰富 - 价值: ⭐⭐⭐⭐ 填补了ViT零样本NAS的空白