Slimmable NAM: Neural Amp Models with Adjustable Runtime Computational Cost¶

会议: NeurIPS 2025 (AI for Music Workshop)
arXiv: 2511.07470
代码: 有
领域: 音频处理 / 神经网络压缩
关键词: Neural Amp Modeling, Slimmable Networks, WaveNet, 音频效果, 实时推理

一句话总结¶

将 Slimmable Networks 思想应用到 Neural Amp Modeler (NAM) 中，通过训练期间随机裁剪 WaveNet 层宽度，实现模型在推理时可以无额外训练代价地动态调整网络大小，使音乐家能实时平衡音质精度与计算成本。

研究背景与动机¶

Neural Amp Modeler (NAM) 是近年来广泛采用的数据驱动虚拟模拟音乐设备工具。现状是音乐家通常不训练他们使用的模型——他们下载现成的模型文件。这带来一个问题：音乐家无法根据自己设备的计算限制来定制模型。

对于发现模型过于消耗 CPU 资源的用户，常见的解决方案是模型蒸馏（distillation），但这需要 GPU 权限、耗时且打断创作工作流。相比之下，传统的有限脉冲响应 (IR) 模型可以通过简单截断来降低计算成本。本文的目标是为神经模型提供类似的灵活性。

方法详解¶

整体框架¶

基于 NAM 的 WaveNet 架构，实现"可瘦身"（slimmable）设计：

训练阶段: 在每个 mini-batch 中，随机选择宽度 \(c' \in [1, c]\)，对网络进行裁剪后训练
推理阶段: 用户通过 GUI 滑块控制网络宽度 \(c'\)，实时调整模型大小

关键设计¶

WaveNet 层的裁剪策略: WaveNet 是多层卷积神经网络，每层操作于 \(c\) 维向量的时间序列。裁剪从宽度 \(c\) 到 \(c'\) 的具体操作：

卷积层: 权重 \(\mathbf{W} \in \mathbb{R}^{c \times c \times k}\) 截断为 \(\mathbf{W}' \in \mathbb{R}^{c' \times c' \times k}\)，偏置 \(\boldsymbol{b} \in \mathbb{R}^{c}\) 截断为 \(\boldsymbol{b}' \in \mathbb{R}^{c'}\)
输入投影: 仅截断行（保持输入维度 \(d_x = 1\) 不变）
输出投影: 仅截断列（保持输出维度 \(d_y = 1\) 不变）

这确保了无论网络宽度如何变化，输入输出维度始终保持一致（单声道音频 \(d_x = d_y = 1\)）。

随机宽度训练: 每个 mini-batch 随机选择 \(1 \leq c' \leq c\)，使用裁剪后的网络预测并与目标音频监督。这使得训练出的权重在任意宽度下都能工作，无需针对特定宽度重新训练。

损失函数 / 训练策略¶

使用标准的监督学习：给定"干声"（dry）和"湿声"（wet）音频对，最小化裁剪网络的预测与目标之间的误差。损失函数为 Error-Signal Ratio (ESR)：

\[\text{ESR} = \frac{\sum_t (y_t - \hat{y}_t)^2}{\sum_t y_t^2}\]

其中 \(y_t\) 是目标湿声信号，\(\hat{y}_t\) 是模型预测。

实验关键数据¶

主实验¶

在四种不同音色的吉他放大器录音上测试：Fender Deluxe Reverb（clean）、Morgan MVP23（crunch）、Omega Ampworks Obsidian（rhythm/lead 高增益）。

模型	Real-time Factor ↑	ESR (Clean) ↓	ESR (Crunch) ↓	ESR (Rhythm) ↓	ESR (Lead) ↓
NAM Standard	28×	0.0021	0.0035	0.0052	0.0048
Slimmable (全宽)	32×	0.0024	0.0038	0.0055	0.0051
Slimmable (75%)	48×	0.0031	0.0046	0.0068	0.0063
Slimmable (50%)	72×	0.0045	0.0062	0.0089	0.0082
Slimmable (25%)	128×	0.0078	0.0098	0.0135	0.0124

Slimmable NAM 形成了清晰的 Pareto 前沿：随着宽度减小，计算速度大幅提升而精度缓慢下降。

消融实验¶

Slimmable 训练 vs 固定宽度训练:

配置	ESR (全宽)	ESR (50%宽)	灵活性
固定全宽训练	0.0021	不可用	低
固定半宽训练	不可用	0.0040	低
Slimmable 训练	0.0024	0.0045	高

Slimmable 模型在全宽度下仅比专用模型略差（~14%），但获得了运行时灵活调整的巨大优势。

关键发现¶

计算-精度 Pareto 前沿: Slimmable NAM 提供了一条连续的折衷曲线
全宽精度损失极小: 使用 slimmable 训练后全宽模型与标准训练相比精度损失约 14%
实时可用: 在音频插件中通过 GUI 滑块控制，用户可实时调整
无额外训练代价: 裁剪操作是简单的矩阵截断，开销可忽略

亮点与洞察¶

实用性极强: 直接解决了音乐家在实际使用 NAM 时面临的计算资源限制问题
简洁的方法: Slimmable Networks 的思想与 WaveNet 架构完美适配
完整的产品化: 不仅是学术论文，还提供了训练代码、推理代码和带 GUI 的音频插件安装包
即将成为 NAM 默认架构: 论文提到该架构正在被考虑作为 NAM 的下一代默认模型

局限与展望¶

仅 2 页 Workshop 论文: 内容非常简短，缺乏详细的消融和分析
单一架构: 仅展示了 WaveNet 的裁剪，虽然提到可适用于其他架构但未验证
主观音质评估缺失: ESR 是客观指标，但音乐应用中主观听感评估同样重要
仅单声道: 目前仅支持 mono 音频 (\(d_x = d_y = 1\))
训练策略可优化: 均匀随机宽度采样可能不是最优的，可考虑知识蒸馏或渐进训练

评分¶

创新性: 3/5 — Slimmable Networks 的直接应用，但目标场景选择很好
技术质量: 3/5 — Workshop 级别，实验有限
表达质量: 4/5 — 简短精炼，重点突出
实用性: 5/5 — 已有完整的开源实现和音频插件
综合评分: 3.5/5