Loss Functions for Predictor-based Neural Architecture Search¶

会议: ICCV 2025
arXiv: 2506.05869
代码: 无
领域: 神经架构搜索
关键词: 神经架构搜索, 性能预测器, 损失函数, 排序学习, 加权损失

一句话总结¶

首次对性能预测器中8种损失函数进行全面系统性研究，涵盖回归、排序和加权三大类，在5个搜索空间的13个任务上揭示了各类损失函数的特性与互补性，并提出分段损失（PW loss）组合方法PWLNAS，在多个基准上超越现有SOTA。

性能预测器是NAS中广泛使用的评估加速方法，其有效性受损失函数选择的关键影响：

损失函数选择未被充分研究：虽然已有MSE、排序损失等多种选择，但不同损失函数在不同搜索空间、不同训练数据量下的表现差异缺乏系统性研究

单一损失函数各有局限：回归损失擅长预测绝对精度但排序能力弱；排序损失擅长整体排序但难识别顶尖架构；加权损失关注高性能架构但小数据量下易过拟合

实践指导缺失：研究者在具体任务中如何选择合适的损失函数缺乏参考依据

本文为综合实验研究+新方法提出，核心工作包括： 1. 将损失函数分为回归、成对排序、列表排序、加权四大类共8种 2. 在5个搜索空间13个任务上用多种指标系统评估 3. 提出PWLNAS：基于发现的互补性设计分段损失函数

损失函数分类与选取：
- 回归损失：MSE，最小化预测分数与真实精度的差异
- 成对排序损失：Hinge Ranking (HR)、Logistic Ranking (LR)、MSE+Sequence Ranking (MSE+SR)，关注架构对的相对排序
- 列表排序损失：ListMLE，优化预测排序列表与真实排序的一致性
- 加权损失：Exponential Weighted (EW)、MAPE、Weighted Approximate-Rank Pairwise (WARP)，高性能架构获得更高权重
- 设计动机：覆盖预测器损失函数的主流范式，WARP为首次引入NAS领域
多维度评估指标体系：
- Kendall's Tau (τ)：整体排序相关性
- Precision@T：预测top-T%中实际属于top-T%的比例（越高越好）
- N@K：预测top-K架构中实际最好的排名（越低越好）
- 设计动机：NAS的核心目标是找到最好的架构，top-K指标比整体排序指标更重要
分段损失PWLNAS（Piecewise Loss NAS）：
- 在预测器迭代训练的早期使用排序/回归损失做热身
- 后期切换到加权损失以识别高性能架构
- 具体组合依任务而定：NAS-Bench-201用HR→MAPE，NAS-Bench-101用ListMLE→WARP，DARTS用HR→MAPE
- 设计动机：利用发现的互补性——排序损失在小数据量下更好，加权损失在充足数据下更好

所有实验使用统一的GCN基性能预测器。各损失函数使用不同级别的超参数进行公平调优。训练数据来自搜索空间中的随机采样子集，预测器在整个搜索空间上评估。所有结果取30次运行的平均值。

方法	损失	NAS-Bench-201 C10	NAS-Bench-201 C100	NAS-Bench-201 IN-16
NASBOT	MSE	6.36	28.62	54.12
ReNAS	LR	6.01	27.88	54.03
NPENAS	MSE	5.69	26.54	53.52
PWLNAS	PW	5.63	26.51	52.88
Global Best	-	5.63	26.49	52.69

方法	损失	DARTS Test Err.	Params
GMAENAS	BPR	2.50±0.03	3.6M
DCLP	ListMLE	2.48±0.02	3.3M
PWLNAS	PW	2.47±0.05	3.6M

预测器骨架	损失	N@10↓	Ptop@0.5↑	τ↑
AP (MLP)	MSE	250.94	4.41	0.43
AP (MLP)	HR	23.58	22.15	0.65
AP (MLP)	ListMLE	22.74	24.15	0.66
AP (MLP)	WARP	113.20	9.36	0.43
PINAT (Trans.)	MSE	146.60	8.62	0.62
PINAT (Trans.)	HR	8.44	29.32	0.67
PINAT (Trans.)	WARP	3.78	38.71	0.65