VKDNW: Training-free Neural Architecture Search through Variance of Knowledge of Deep Network Weights¶

会议: CVPR 2025
arXiv: 2502.04975
代码: GitHub
领域: 其他（神经架构搜索）
关键词: 神经架构搜索, 训练无关代理, Fisher信息矩阵, Cramér-Rao界, 评估指标

一句话总结¶

VKDNW提出了一种基于Fisher信息矩阵（FIM）特征值谱熵的训练无关NAS代理，首次成功地将Fisher信息理论应用于大规模深度网络架构搜索，无需任何训练即可评估网络分类精度潜力，并提出了更适合NAS任务的nDCG评估指标。

研究背景与动机¶

神经架构搜索（NAS）旨在系统地寻找最优网络架构，但其核心瓶颈是天文级的计算成本——基本设置下需要训练数千个不同架构。

训练无关NAS（TF-NAS）的关键挑战： - 现有代理的理论基础薄弱：GradNorm、NASWOT、ZenNAS等方法多基于经验启发，缺乏严格的统计理论支撑 - Fisher信息在大网络上的应用失败：尽管FIM是分析网络的"显而易见的选择"，但在大规模过参数化模型上面临数值不稳定和计算不可行的问题 - 评估指标不适合NAS目标：Kendall's \(\tau\)和Spearman's \(\rho\)对所有网络一视同仁，而NAS实际只关心能否识别出最好的网络

核心洞察：网络架构的质量可以通过权重估计过程的难度来衡量——FIM特征值越均匀，权重估计的不确定性在各方向上越一致，训练越容易，架构越好。

方法详解¶

整体框架¶

VKDNW分三步：(1) 在随机初始化的网络上使用随机输入计算经验Fisher信息矩阵（无需真实标签）；(2) 提取FIM特征值谱的十分位数表示；(3) 计算特征值分布的熵作为架构质量代理，与可训练层数结合形成最终排序。

关键设计¶

设计一：稳定高效的FIM特征值谱估计

功能：在大规模过参数化深度网络上可靠地计算Fisher信息矩阵的特征值
核心思路：将经验FIM分解为\(\hat{F}(\theta) = \frac{1}{n}\sum_{n=1}^N A_n^T A_n\)的形式，利用softmax函数的分析公式处理数值不稳定的矩阵分解。仅从每个可训练层抽取少量代表性参数构建低维FIM。利用SVD替代特征值分解处理半正定矩阵的病态谱
设计动机：直接计算\(p \times p\)（\(p\)为参数量）的FIM不可行。初始化时网络输出严重不平衡，必须正确处理\(\text{diag}(\sigma) - \sigma\sigma^T\)项以避免上溢/下溢。少量代表性参数即可捕获架构的本质结构特性

设计二：VKDNW — 基于FIM特征值谱熵的架构代理

功能：量化网络架构的训练可行性，不依赖网络大小
核心思路：定义\(\text{VKDNW}(f) = -\sum_{k=1}^9 \tilde{\lambda}_k \log \tilde{\lambda}_k\)，其中\(\tilde{\lambda}_k = \lambda_k / \sum_j \lambda_j\)是FIM特征值谱的归一化十分位数。VKDNW在所有特征值相等时取最大值，特征值越不均匀值越低。与可训练层数\(\aleph(f)\)结合：\(\text{VKDNW}_\text{single}(f) = \aleph(f) + \text{VKDNW}(f)\)
设计动机：基于Cramér-Rao界，FIM特征值的均匀性反映了权重估计在各方向上的不确定性平衡。特征值越均匀意味着训练难度在各参数方向上越一致，预测对权重扰动的敏感性也越平衡。归一化使代理独立于网络大小，与层数组合同时捕获架构结构质量和容量

设计三：nDCG评估指标 — 关注顶部排序质量

功能：更准确地评估TF-NAS代理对最佳网络的识别能力
核心思路：借鉴信息检索中的NDCG指标，定义\(\text{nDCG}_P = \frac{1}{Z} \sum_{j=1}^P \frac{2^{\text{acc}_{k_j}} - 1}{\log_2(1+j)}\)，其中\(P\)为考虑的顶部网络数量。高精度网络出现在排名前列时获得更高权重
设计动机：Kendall's \(\tau\)和Spearman's \(\rho\)均等对待所有排序对，无法区分"顶部排序差但底部排序好"和"顶部排序好但底部排序差"的两种代理。NAS只关心找到最佳网络，nDCG正是衡量这一能力的标准指标

损失函数¶

VKDNW是一种无需训练的评分方法，不涉及损失函数。经验FIM使用网络初始化权重\(\theta_\text{init}\)和随机输入计算，不需要真实数据标签。

实验关键数据¶

主实验：NAS-Bench-201搜索空间¶

方法	CIFAR-10 KT	CIFAR-100 KT	ImageNet16 KT	CIFAR-10 nDCG	ImageNet16 nDCG
FLOPs	0.623	0.586	0.545	0.745	0.403
GradNorm	0.328	0.341	0.310	0.509	0.265
NASWOT	中	中	中	中	中
VKDNW	最高	最高	最高	最高	最高

关键发现¶

VKDNW在三个数据集和两个搜索空间上均达到SOTA，在KT、SPR和nDCG三个指标上全面领先
有趣发现：简单的"可训练层数"\(\aleph\)作为代理，在多个指标上显著优于FLOPs
VKDNW的信息与模型大小正交，二者组合效果优于单独使用
经验FIM不依赖真实标签（使用随机输入即可），说明架构的内在结构特性可以在初始化时被捕获
nDCG指标揭示了之前方法间被传统指标掩盖的显著差异

亮点与洞察¶

理论深度：首次成功将Fisher信息理论应用于大规模NAS，克服了长期存在的数值和计算障碍
优雅的代理设计：FIM特征值谱的熵捕获了"训练难度均衡性"这一直觉，既有统计理论支撑又简洁实用
评估指标的贡献：nDCG的引入填补了TF-NAS评估的空白，toy example的展示极具说服力

局限与展望¶

基于Cramér-Rao界的动机假设FIM在正确权重处评估，而实际在随机初始化处，理论保证有gap
十分位数的选择和9个代表性特征值的设定较为经验性
主要在分类任务上验证，对检测/分割等任务的泛化性有待验证
未来可探索FIM在训练全过程中的动态变化

评分¶

⭐⭐⭐⭐ — 理论贡献扎实，首次成功将FIM应用于NAS令人印象深刻。nDCG评估指标的提出具有独立价值。实验全面且结果一致。对TF-NAS领域提供了新的理论视角。