L-SWAG: Layer-Sample Wise Activation with Gradients for Zero-Shot NAS on Vision Transformers¶

会议: CVPR 2025
arXiv: 2505.07300
代码: 无
领域: 模型压缩 / 神经架构搜索
关键词: 零样本NAS, 零成本代理, Vision Transformer, 梯度统计, 架构搜索

一句话总结¶

本文提出 L-SWAG 零成本代理指标，结合层级梯度方差统计（可训练性）和激活模式基数（表达性），首次在 ViT 搜索空间上实现稳定正相关排名，并提出 LIBRA-NAS 集成算法组合多个代理指标，在 ImageNet1k 上以 0.1 GPU-day 找到 17.0% 测试错误率的架构。

研究背景与动机¶

领域现状：零样本 NAS 通过零成本（ZC）代理指标在不训练网络的情况下快速评估架构性能，已有大量基于梯度（ZiCo、SNIP、GraSP）和无梯度（NWOT、SWAP）的代理方法。

现有痛点：(1) 现有 SOTA 代理主要针对卷积搜索空间设计，在 ViT 搜索空间上表现不佳，甚至不如简单的参数数量指标；(2) 不同代理包含互补信息且存在各自偏差，缺乏有效的组合策略；(3) ZiCo 等方法理论基础（线性回归）不完全适用于非线性网络。

核心矛盾：随着 LLM 和 ViT 成为主流，NAS 的代理指标需要从 CNN 扩展到 Transformer，但现有指标的理论假设和实践设计难以泛化。

本文目标：(1) 设计一个在 CNN 和 ViT 上都表现良好的通用 ZC 代理；(2) 设计一种基于信息论的代理组合方法。

切入角度：分析 ZiCo 指标中梯度均值 \(\mu\) 的理论必要性，证明 \(\mu\) 在 DPO 上界中的作用可被常数 1 替代，并发现不同层的梯度统计贡献差异很大。

核心 idea：用层级选择的梯度方差倒数（可训练性）乘以层级激活模式基数（表达性），得到一个对 CNN 和 ViT 都适用的综合代理指标。

方法详解¶

整体框架¶

L-SWAG 对随机初始化的候选网络，输入一个批次的图像，提取选定层的梯度统计和激活模式，计算最终得分用于排名。LIBRA-NAS 则在已有的多个代理指标基础上，通过相关性、信息增益和偏差匹配三步选择最佳组合。

关键设计¶

改进的梯度方差指标 \(\Lambda^{\hat{L}}\):
- 功能：衡量网络的可训练性
- 核心思路：\(\Lambda^{\hat{L}} = \sum_{l=\hat{l}}^{\hat{L}} \log(\sum_{w \in \theta_l} \frac{1}{\sqrt{Var(|\nabla_w \mathcal{L}|)}})\)。相比 ZiCo 的 \(\mu/\sigma\)，本文用常数 1 替代分子的 \(\mu\)。Theorem 1 证明在线性回归器中，训练损失上界 \(\leq \frac{1}{2}M\sum_j[\sigma_j^2 + ((M\eta-1)\mu_j)^2]\)，当 \(\eta = 1/M\) 时 \(\mu\) 项消失，仅 \(\sigma\) 决定上界。层级选择通过分析 1000 个随机网络的梯度统计发现特定层（百分位）出现尖峰，仅保留这些层
- 设计动机：ZiCo 的 \(\mu\) 分量缺乏非线性网络的理论支撑，实验也证实去掉 \(\mu\) 反而提升性能；层级选择既提升指标质量又加速计算
层级 SWAP-Score \(\Psi_{\mathcal{N},\theta}^{\hat{L}}\):
- 功能：衡量网络的表达性
- 核心思路：对 ReLU 和 GeLU 网络定义层级样本激活模式（将每层每个神经元在所有样本上的激活值二值化），计算不同激活模式的数量（基数）。这是首次将激活模式分析扩展到 GeLU 网络（ViT 使用 GeLU）
- 设计动机：纯梯度指标在 ViT 上失效的原因是缺少表达性衡量；NWOT 用全局 Hamming 距离，而本文用层级基数更精细地捕捉每层的"实际表达力"
LIBRA-NAS 代理集成算法:
- 功能：为特定搜索空间自动选择最优的代理指标组合
- 核心思路：三步选择——(1) 选相关性 \(\rho\) 最高的代理 \(z_1\)；(2) 在 \(\rho\) 接近的代理中选信息增益最低的 \(z_2\)（低 IG 意味着与 \(z_1\) 捕捉相同信息，类似"过拟合"验证准确率）；(3) 选偏差最接近验证准确率偏差的 \(z_3\)（匹配而非消除偏差）
- 设计动机：不同搜索空间偏好不同类型的代理，单一指标无法通吃；LIBRA 不需要训练预测器（保持零样本特性），比简单平均或去偏策略更有效

损失函数 / 训练策略¶

本文是零样本方法，不涉及网络训练。L-SWAG = \(\Lambda^{\hat{L}} \times \Psi_{\mathcal{N},\theta}^{\hat{L}}\)，两项相乘（乘法优于加法的理论动机来自 T-CET 工作）。

实验关键数据¶

主实验¶

搜索空间	L-SWAG \(\rho\)	第二名 \(\rho\)	提升
平均（14个任务）	0.72	0.62 (NWOT)	+0.10
TNB101-Macro Jigsaw	0.86	0.58	+0.28
NB101 C10	0.65	0.54	+0.11
Autoformer ViT 平均	0.52	0.35 (#Params)	+0.17

NAS 搜索结果	测试错误率	GPU-days
L-SWAG (ImageNet1k)	17.0%	0.1
LIBRA (ImageNet1k)	16.8%	0.1
Evolution NAS	17.5%	>1

消融实验¶

配置	平均 \(\rho\)	说明
Full L-SWAG (\(1/\sigma\) + SWAP)	0.72	完整模型
仅 \(\mu/\sigma\) (ZiCo)	0.58	保留 \(\mu\) 反而更差
仅 \(1/\sigma\) (无表达性)	0.65	缺少 SWAP 在 ViT 上大幅下降
仅 SWAP	0.55	仅表达性不够
全层 vs 层级选择	+0.05~0.15	层级选择显著提升

关键发现¶

\(\mu\) 分量对性能有负面影响，去掉后在大多数搜索空间上都有提升
表达性项（SWAP）是 L-SWAG 在 ViT 上成功的关键——纯梯度指标在 ViT 上几乎失效
层级选择策略在所有搜索空间上都有正面贡献，且显著加速计算
LIBRA 的"最小信息增益"策略（选捕获相同信息的代理）反直觉但有效

亮点与洞察¶

理论指导的指标改进：通过严格证明 \(\mu\) 在最优学习率下对损失上界无贡献，有理论支撑地简化了 ZiCo。这种"减法创新"值得学习
层级梯度分析的发现：不同层对代理质量的贡献差异巨大，仅用梯度尖峰层即可大幅提升排名质量。这个经验发现可迁移到其他需要层级分析的场景
LIBRA 的反直觉设计：选择信息增益最低的互补代理（而非最高），本质是在"捕捉同一信号的不同侧面"，类似于集成学习中的多样性-准确性权衡

局限与展望¶

层级选择的最优百分位需要对每个搜索空间单独分析 1000 个网络，有一定预计算开销
ViT 搜索空间（Autoformer Small）本身准确率差异小（~2%），代理评估困难
LIBRA 需要预计算所有代理的相关性，对全新搜索空间的冷启动能力未知
可探索将 L-SWAG 扩展到 LLM 架构搜索

评分¶

新颖性: ⭐⭐⭐⭐ 理论驱动的改进+首次系统性评估 ViT 搜索空间
实验充分度: ⭐⭐⭐⭐⭐ 14 个任务覆盖多个搜索空间，消融充分
写作质量: ⭐⭐⭐⭐ 论证逻辑清晰，图表信息丰富
价值: ⭐⭐⭐⭐ 开辟 ViT 零样本 NAS 方向，LIBRA 框架通用性强