Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders¶

会议: NeurIPS 2025
arXiv: 2510.23802
代码: 无（有匿名音频样本: https://anonymous.4open.science/r/audio_samples-A301/ ）
领域: 音频生成 / 可解释性
关键词: 稀疏自编码器, 音频潜空间, 可解释性, 音乐生成, 控制向量

一句话总结¶

提出一种通过稀疏自编码器（SAE）从音频生成模型的潜空间中提取可解释特征的框架，通过线性探针将 SAE 特征映射到人类可理解的声学概念（音高、振幅、音色），实现对音频生成过程的可控操作和可视化分析。

研究背景与动机¶

随着神经网络在社会中的深入应用，其缺乏可解释性成为重要关切。稀疏自编码器（SAEs）已成为机制可解释性研究的关键工具，特别是在大语言模型（LLM）中取得了显著成功——SAE 能从激活空间中找到稀疏方向，隔离底层的、解纠缠的特征，自动表征单义特征。

然而将 SAE 方法扩展到音频生成网络面临根本性挑战：

音频的稠密性：与文本不同，音频本质上是稠密信号，通常需要通过自编码器（VAE/VQ）压缩才能处理，而压缩步骤遮蔽了"token"的语义含义

自动表征困难：LLM 中 SAE 特征可以用模型自身来总结其行为（token 级扰动），但当前音频理解模型还不够强大，无法提供同等水平的自动特征表征

缺乏成熟框架：音频生成模型的可解释性研究远落后于文本领域

这些限制要求新的方法来实现音频生成系统中的可解释特征发现。

方法详解¶

整体框架¶

三阶段框架： 1. SAE 训练：在音频自编码器的潜空间表征上训练 SAE，提取稀疏特征 2. 线性映射：学习从 SAE 特征到离散化声学属性的线性探针 3. 生成过程分解：追踪特定声学属性在合成过程中的演化

关键设计¶

1. 修改版 SAE 架构¶

在标准 SAE 基础上加入 RMS 归一化层：

\[\mathbf{h} = \text{ReLU}(W_{\text{enc}} \mathbf{x} + \mathbf{b}_{\text{enc}}), \quad \mathbf{f} = \text{RMSNorm}(\mathbf{h})\]

设计动机：RMS 归一化维持一致的激活幅度，经验上发现能防止特征操作时出现分布外（OOD）伪影。这对音频领域尤为重要，因为音频信号的动态范围很大。

训练损失：\(\mathcal{L} = \|\mathbf{x} - \hat{\mathbf{x}}\|_2^2 + \lambda \|\mathbf{h}\|_1\)

重建保真度项 + L1 稀疏约束。对隐层维度（4× 到 256× 输入维度）和稀疏系数 \(\lambda\)（0.005 到 0.15）进行系统网格搜索。

2. 声学概念线性映射¶

将连续声学属性离散化为可解释的"单元"： - 音高：按西方调音系统离散化（如 C4, C#4），使用 CREPE 提取，66 个 bin - 振幅：通过窗口 RMS 能量计算（librosa），20 个等间距 bin - 音色：通过窗口谱质心（spectral centroid）近似，20 个等间距 bin

对每个声学属性训练线性分类器：\(p^{(a)} = \text{softmax}(W^{(a)} \mathbf{f} + \mathbf{b}^{(a)})\)

线性映射的意义：如果线性探针能有效预测声学属性，说明 SAE 特征已经以近线性方式编码了这些属性，验证了学习表征与人类可理解概念的对齐。

双向可解释性：SAE 特征 \(j\) 对声学类别 \(k\) 的贡献为 \(c_{j \to k}^{(a)} = W_{kj}^{(a)} \cdot f_j\)。

3. 控制向量（Control Vectors）¶

利用线性映射的可逆性实现可控音频操作： - 将缩放后的探针权重向量 \(\alpha \cdot \mathbf{w}_k^{(a)}\) 加到 SAE 特征上 - 经 RMS 再归一化保持有效激活幅度 - 通过 SAE 和音频解码器解码得到修改后的音频

控制强度 \(\alpha \in \{1, 10, 20, 30\}\)，增大 \(\alpha\) 可在目标属性上产生孤立变化，非目标属性基本保持不变。

生成过程可视化¶

分析 DiffRhythm（rectified flow 模型）的生成过程： - 在 32 个推理步中，每步提取潜表征 \(\mathbf{X}_t\)，通过 SAE 和线性探针得到声学概念激活 - 定义归一化 L1 距离追踪属性演化：

\[s_t^{(a)} = \frac{1}{K_a} \sum_{k=1}^{K_a} \frac{|p_{t,k}^{(a)} - p_{0,k}^{(a)}|}{|p_{T,k}^{(a)} - p_{0,k}^{(a)}|}\]

\(s_t^{(a)} \in [0, 1]\) 衡量从初始噪声 (\(t=0\)) 到最终音频结构 (\(t=T=31\)) 的进展。

损失函数 / 训练策略¶

SAE 训练：复合损失（重建 MSE + L1 稀疏），网格搜索隐层维度和 \(\lambda\)
线性探针：标准多类交叉熵
数据集：~31 小时混合音频（CocoChorales 11.2h, DAMP-VSEP 11.7h, Groove MIDI 7.8h, GuitarSet 0.4h, MAESTRO 0.55h）
音频编码器：DiffRhythm-VAE（连续）、EnCodec（离散）、WavTokenizer（离散）

实验关键数据¶

主实验：声学概念映射¶

不同编码器上 SAE 的稀疏性和线性探针准确率：

编码器	稀疏率范围	音高准确率	振幅准确率	音色准确率
DiffRhythm-VAE	0.65–0.98	0.75–0.87	0.17–0.40	0.17–0.35
WavTokenizer	0.993–0.999	0.75–0.82	0.17–0.30	0.17–0.25
EnCodec	0.55–0.95	0.78–0.87	0.56–0.63	0.30–0.46

关键观察： - 音高最容易线性分离（0.75–0.87），在所有稀疏度水平上保持稳定 → 基频信息编码在潜空间中非常线性 - EnCodec 在振幅预测上显著优于其他模型（0.56–0.63 vs 0.17–0.49） - 音色对所有模型都较困难（0.17–0.46），说明音色编码更为分散

消融实验：生成过程属性演化¶

分析 DiffRhythm 在 500 个 MusicCaps 提示上的生成过程（32 步推理）：

声学属性	收敛步数 (约)	收敛速度排序	说明
音高	~第 21 步	最先	基频最先确立
音色	~第 25 步	其次	纹理特征随后
振幅	未收敛	最慢	动态细节最后处理

从粗到细的生成层次：模型先确定基频结构（音高），再细化纹理（音色），最后处理动态（振幅），形成 coarse-to-fine 的生成进程。

关键发现¶

SAE 特征与声学属性天然对齐：线性映射的有效性证明 SAE 特征以近线性方式编码声学概念
不同编码器特性不同：WavTokenizer 产生最稀疏表征（0.993–0.999），说明其离散 token 已编码高度解纠缠特征；EnCodec 在振幅编码上最优
控制向量有效隔离属性：增大 \(\alpha\) 时，音高/音色/振幅的变化互不干扰
生成过程呈 coarse-to-fine 层次：音高→音色→振幅的收敛顺序与人类音乐感知层次一致
更大隐层维度持续改善重建质量：跨所有模型成立

亮点与洞察¶

框架通用性强：虽然实验聚焦音频，但框架理论上可扩展到图像、视频等其他基于潜空间的生成模型
RMS 归一化的实用价值：简单修改解决了音频 SAE 的 OOD 伪影问题，是重要的工程贡献
线性可分性的理论含义：SAE 特征能被线性探针准确预测声学属性，说明这些概念在潜空间中以近线性方式组织，与 LLM 中发现的线性表征假说一致
生成过程可视化揭示了模型的"思维方式"：coarse-to-fine 层次对理解和改进音乐生成模型有直接指导意义

局限与展望¶

声学属性覆盖有限：仅探索了音高、振幅、音色三个基本属性，未涉及节奏、和声、乐器身份等更丰富的音乐特征
音色的代理定义过于简化：用谱质心代表音色是粗糙近似，真实音色是多维概念
数据集规模有限：~31 小时的训练数据多样性可能不足以覆盖所有音乐风格
仅分析三种编码器：未涉及 RAVE、AudioLDM 等其他流行架构
控制向量的精细度有限：全局控制，无法实现时间维度上的局部精细控制
缺少生成质量评估：操作后音频的客观质量指标（如 FD、FAD）未报告

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地将 SAE 可解释性框架应用于音频潜空间，RMSNorm 修改和控制向量设计有创意
实验充分度: ⭐⭐⭐ — 覆盖三种编码器和一种生成模型，但声学属性有限，缺少质量评估
写作质量: ⭐⭐⭐⭐ — 结构清晰，可视化丰富，框架描述简洁易懂
价值: ⭐⭐⭐⭐ — 开辟了音频生成可解释性的新方向，框架可扩展性强