Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders¶

会议: NeurIPS 2025 (AI for Music Workshop)
arXiv: 2511.05350
代码: https://github.com/CPJKU/pa-audioic
领域: 音频 / 音乐表征学习
关键词: 感知对齐, 噪声增强自编码器, 潜在扩散, 音乐惊奇感, EEG预测

一句话总结¶

证明在自编码器训练中对潜变量加噪（noise-augmented latent training）配合感知损失，能使编码空间形成"感知层次结构"——感知最显著的音乐特征（如音高）编码在最粗粒度的潜在结构中，而次要特征（如音色细节）编码在细粒度结构中。这种对齐改善了潜在扩散解码下的音乐惊奇感估计和 EEG 脑响应预测。

研究背景与动机¶

领域现状：音乐的信息量/惊奇感（IC/surprisal）可通过自回归模型的负对数似然估计，已在行为学和神经科学研究中验证与人类感知的相关性。最近的方法在音频自编码器的潜空间中用自回归扩散模型计算 IC。
现有痛点：扩散模型在不同噪声级别解码不同粒度的结构——粗结构先于细结构重建。但标准自编码器训练不保证感知重要的信息（如音高）被编码在粗结构中，导致中间噪声级别的 IC 估计不一定最优。
核心矛盾：扩散过程的频谱 SNR 特性决定了它"先解码粗后解码细"，但如果感知重要特征分散在各粒度中，就无法利用这一特性来优化惊奇感估计。
本文要解决什么？ 显式地让自编码器学到的潜空间与感知层次对齐——感知最重要的信息在最粗的结构中。
切入角度：在训练时对潜变量加不同强度的噪声并要求重建，配合感知损失的约束，迫使编码器把对感知损失最重要的信息放在粗结构（高 SNR 下仍能保留的）中。
核心 idea 一句话：加噪训练 + 感知损失 = 自动将感知显著信息推入潜空间的粗粒度结构。

方法详解¶

整体框架¶

两阶段潜在扩散：(1) 音频自编码器（Music2Latent/CAE）编码→压缩潜变量→解码重建；(2) 自回归整流流（rectified flow）模型在潜空间做下一步预测。本文在第一阶段引入噪声增强训练，在第二阶段利用对齐后的潜空间改善 IC 估计。

关键设计¶

噪声增强潜变量训练:
做什么：在自编码器训练时对潜变量加噪并要求重建
核心思路：\(z' = (1-t)z + t \cdot n(\gamma)\)，其中 \(n(\gamma) \sim \gamma \cdot \mathcal{N}(0,I)\)，\(t \sim \mathcal{U}(0,1)\)。解码器需从加噪的 \(z'\) 重建原始音频
设计动机：由于频谱 SNR 特性，高噪声下只有粗结构可见。感知损失迫使编码器将感知最重要的信息放在粗结构中，因为只有这样才能在高噪声下仍满足感知损失
方差固定 + 偏置采样:
做什么：防止编码器通过增大方差来"作弊"绕过噪声
核心思路：用 LayerNorm 固定 \(z\) 的方差等于噪声分布方差，\(\gamma^2=1\)。\(t\) 从 logit-normal 分布（而非均匀分布）采样，控制 SNR 分布
设计动机：原方法（yang2025detok）中编码器可以增大 \(z\) 的方差来提高 SNR，本质上减弱了加噪的效果
惊奇感估计改善:
做什么：在对齐的潜空间中用扩散模型估计音乐惊奇感
核心思路：训练自回归整流流模型在潜空间预测下一步，用瞬时变量变换公式计算 IC/NLL。在不同噪声级别计算 IC，与 IDyOM（符号音乐期望模型）预测相关性和 EEG 预测准确率
设计动机：对齐后，中间噪声级别应该更好地估计音高等感知相关特征的惊奇感

损失函数 / 训练策略¶

基础损失：感知加权的复谱图差异（一致性训练）
微调 Music2Latent 预训练检查点
固定一致性步长为预训练模型的最终值

实验关键数据¶

主实验：重建质量（不同 SNR 水平）¶

训练方式	SNR	ViSQOL (V)↑	SI-SDR (SI)↑	FAD-VGG↓	FAD-CLAP↓
对齐 (E,D)	无穷	3.73	-5.18	1.53	0.05
对齐 (E,D)	4.0	3.48	-9.05	2.46	0.08
对齐 (E,D)	1.0	3.19	-15.73	3.64	0.17
未对齐	4.0	2.94	-11.44	6.63	0.42
未对齐	1.0	2.53	-18.82	11.15	0.84

消融：惊奇感估计¶

方法	IDyOM 相关性↑	EEG 预测↑
未对齐基线	较低	较低
对齐 (本文)	显著提升	显著提升
对齐 + 最优噪声级别	最佳	最佳

关键发现¶

对齐后低 SNR 下感知质量显著优于未对齐：ViSQOL 在 SNR=4 时 3.48 vs 2.94，说明对齐将感知信息推入了粗结构
对齐后中间噪声级别的惊奇感估计最优：验证了核心假设——感知特征与粗结构对齐后，扩散模型"先解码粗"的特性被充分利用
方差固定是关键：不固定方差时编码器通过增大方差绕过噪声效果
对齐后 FAD 在低 SNR 时更好：说明解码器在信息缺失时能发明更合理的内容

亮点与洞察¶

"感知层次结构"概念很有洞察：不同粒度的潜在结构对应不同的感知重要性层级，这个思路可推广到其他模态（如视觉的全局结构vs纹理细节）
加噪 + 感知损失的隐式对齐机制优美简洁——无需显式设计什么信息放在哪一层，噪声的频谱特性自动完成层级分配
对潜在扩散模型的设计有普适性启发：自编码器的潜空间结构应该匹配扩散过程的解码顺序

局限性 / 可改进方向¶

仅在单声道符号音乐和声乐上验证，复杂多声部音乐效果未知
评估指标（IDyOM 相关性、EEG）限于音高维度，对节奏/和声的感知对齐未验证
Workshop paper 规模较小，大规模验证不足
感知损失的选择可能影响对齐的层次——不同的感知度量是否产生不同的层次结构值得探索
LayerNorm 固定方差可能限制编码器的表达能力，需要在对齐质量和重建质量之间找到平衡

评分¶

新颖性: ⭐⭐⭐⭐ 噪声训练产生感知层次的理论分析有深度
实验充分度: ⭐⭐⭐ Workshop paper 但有重建/惊奇感/EEG 三方面验证
写作质量: ⭐⭐⭐⭐ 理论动机推导清晰
价值: ⭐⭐⭐⭐ 对潜在扩散模型设计有普适性启发