Subnet-Aware Dynamic Supernet Training for Neural Architecture Search¶

会议: CVPR 2025
arXiv: 2503.10740
代码: 项目页面
领域: ai_safety
关键词: 神经架构搜索, 超网训练, 学习率调度, 动量分离, 子网公平性

一句话总结¶

提出动态超网训练策略（CaLR + MS），通过复杂度感知的学习率调度解决子网训练不公平问题，以及动量分离技术缓解梯度噪声问题，以极低额外开销显著提升 N-shot NAS 的搜索性能。

研究背景与动机¶

N-shot NAS 方法使用超网（supernet）包含所有候选子网，通过训练超网来预测子网性能。现有方法使用静态训练策略（所有子网共享相同学习率调度器和优化器），忽略了不同子网的特性差异，导致两个关键问题：

(1) 不公平性问题（Unfairness）: 高复杂度子网参数更多，需要更多训练迭代才能充分收敛，但静态策略对所有子网等同对待。结果是低复杂度子网过早收敛排名靠前，高复杂度子网训练不充分排名被低估，即使其真实性能更强。

(2) 噪声动量问题（Noisy Momentum）: 超网中随机采样的子网在每步产生差异大的梯度，这些梯度累积到单一动量缓存中导致动量方向噪声大，训练不稳定。

核心问题: 现有方法未考虑子网的个体特性（复杂度和结构），导致超网排名一致性差，进而搜索到次优架构。

方法详解¶

整体框架¶

动态超网训练框架包含两个即插即用组件：(1) 复杂度感知学习率调度器（CaLR）——根据子网复杂度调整 LR 衰减速率；(2) 动量分离（MS）——将结构相似的子网分组，为每组分配独立动量缓存。两者互补，可应用于 SPOS、FairNAS、FSNAS 等多种 NAS 方法。

关键设计1: 复杂度感知学习率调度器 (CaLR)¶

功能: 根据子网复杂度调整 LR 衰减速率，平衡不同复杂度子网的训练充分性。

核心思路: 使用多项式 LR 调度器 \(\eta^t = \eta^0 \cdot (1 - t/T)^{\gamma(\alpha)}\)，其中衰减率 \(\gamma(\alpha) = \omega \log(\mathcal{C}(\alpha)) + \tau\)。\(\mathcal{C}(\alpha)\) 为子网参数量。高复杂度子网 \(\gamma < 1\)（LR 衰减慢，保持更大学习率更长时间），低复杂度子网 \(\gamma > 1\)（LR 衰减快，避免过训练）。复杂度中等的子网 \(\gamma = 1\)，等价于线性衰减。

设计动机: 高复杂度子网有更多参数需要调整，需要更多有效的训练迭代。直接增加训练步数计算成本高，而调整 LR 衰减速率可以等效地为高复杂度子网提供更多的参数空间探索机会。对数函数确保中等复杂度子网使用标准线性衰减。

关键设计2: 动量分离 (MS)¶

功能: 降低超网训练中动量的噪声，稳定训练过程。

核心思路: 根据子网在特定边/层上的操作类型进行聚类：\(S_i = \{\alpha \in \mathcal{A} | \text{op}(\alpha, e) = o_i\}\)。为每个聚类分配独立的动量缓存 \(\mu_i\)：\(\mu_i^t = \beta \cdot \mu_i^{t-1} + g^t\)。采样到的子网 \(\alpha\) 根据其所属聚类 \(S_i\) 更新对应的动量缓存 \(\mu_i\)。权重仍然在所有子网间共享。

设计动机: 基于经验观察——结构相似的子网产生相似的梯度。通过将结构相似的子网聚在一组，组内梯度一致性高，动量更新更稳定。聚类基于单边/层操作类型，分组数等于候选操作数（如7组），动量缓存额外内存可忽略。

关键设计3: 评估指标 CB 和 C3¶

功能: 量化超网训练中的不公平性问题。

核心思路: 提出 Complexity Bias (CB) 衡量超网排名对低复杂度子网的偏好程度，Complexity-Convergence Correlation (C3) 衡量复杂度与收敛程度的相关性。这两个指标可以直接检测不公平性问题，验证 CaLR 的有效性。

设计动机: 之前缺乏量化不公平性问题的指标，仅能通过最终搜索结果间接评估。CB 和 C3 提供了直接的诊断工具。

损失函数¶

使用标准的任务训练损失（如交叉熵），不引入额外损失。CaLR 和 MS 仅修改优化过程（LR 调度和动量更新），不影响损失函数设计。

实验关键数据¶

ImageNet MobileNet 搜索空间¶

方法	Params(M)	FLOPs(M)	Top-1(%)	GPU Hours
SPOS-L	4.5	471	76.6	157
SPOS-L + Ours	4.7	459	77.1	159
FairNAS-L	4.7	472	76.7	364
FairNAS-L + Ours	4.7	471	77.0	369
FSNAS-L	4.7	464	76.8	740
FSNAS-L + Ours	4.5	—	提升	—

NAS-Bench-201 排名一致性 (Kendall's Tau)¶

方法	CIFAR-10	CIFAR-100	ImageNet-16
SPOS	基线	基线	基线
SPOS + CaLR	+提升	+提升	+提升
SPOS + MS	+提升	+提升	+提升
SPOS + CaLR + MS	最优	最优	最优

关键发现¶

一致性提升: CaLR + MS 在所有 NAS 方法和数据集上均显著提升超网的排名一致性（Kendall's Tau）。
ImageNet Top-1 提升: SPOS-L 从 76.6%→77.1%（+0.5%），FairNAS-L 从 76.7%→77.0%（+0.3%），仅需增加约 1% 的 GPU 时间。
互补性强: CaLR 和 MS 解决不同问题（公平性 vs 稳定性），联合使用效果最佳。
通用性好: 可无缝应用于 one-shot（SPOS、FairNAS）和 few-shot（FSNAS）NAS 方法。
额外开销极低: 峰值内存增加不到 1%，GPU 时间增加约 1-5%。

亮点与洞察¶

问题洞察深刻: 精准识别了静态超网训练的两个核心问题，并提出针对性解决方案。
即插即用: 两个组件均可独立或联合应用于任意 N-shot NAS 方法，无需修改搜索空间或采样策略。
理论与实践结合: 不公平性问题的可视化分析和 CB/C3 指标提供了清晰的动机支撑。

局限与展望¶

复杂度指标选择: 仅使用参数量作为复杂度评分，未考虑 FLOPs、内存等其他维度。
聚类策略简单: MS 基于单边操作类型聚类，可能无法完全捕捉子网间的梯度相似性。
大搜索空间验证不足: 在 \(7^{21}\) 规模的搜索空间中，仅验证了 MobileNet 空间。
未来可探索自适应聚类、多维复杂度评分、与非均匀采样策略的结合。

评分¶

⭐⭐⭐⭐ — 问题挖掘精准，解决方案简洁有效，即插即用的设计极具实用价值。在多种 NAS 方法上一致提升且开销微乎其微是最大亮点。聚类策略的简单性略显不足。