Latent Fourier Transform¶

会议: ICLR 2026 Oral
OpenReview: ogMxCjdCCq
代码: 有
领域: 音乐生成
关键词: diffusion autoencoder, Fourier transform, music generation, latent frequency, timescale control

一句话总结¶

将扩散自编码器与潜在空间 DFT 结合，在潜在时间序列表征上应用傅里叶变换按时间尺度分离音乐模式，训练时使用随机相关对数频率掩码让解码器学习从部分频谱信息重建，推理时用户指定频率掩码控制保留/混合的时间尺度，在条件生成和音乐融合任务上超越 ILVR/guidance/codec filtering/RAVE 等基线，29 名音乐家的听力测试确认其音质和融合能力优越。

研究背景与动机¶

领域现状：音乐生成模型缺乏对音乐结构不同时间尺度（节奏、旋律、和声进行）的细粒度控制。
现有痛点：现有控制方法（如 text prompt、style transfer）不能独立操控不同时间尺度的音乐元素。
核心idea一句话：在潜在空间做傅里叶变换，用频率域控制音乐生成——类似于均衡器改变音色，但操作的是音乐结构而非声学特性。

方法详解¶

关键设计¶

潜在空间 DFT：对扩散自编码器的潜在时间序列表征做离散傅里叶变换
随机相关对数频率掩码：训练时随机掩码频率域，让模型学习从部分频谱重建
频率域控制：推理时指定频率掩码，选择性保留/融合不同时间尺度的音乐模式

实验关键数据¶

在 MTG-Jamendo、Maestro、GTZAN 三个数据集上超越 ILVR/guidance/codec filtering/RAVE
29 名音乐家听力测试确认音质和融合能力优越
隔离实验证明不同音乐属性（和弦、旋律、节奏）位于不同的潜在频率范围
泛化到 30 秒片段和替代编码器（DAC）

亮点与洞察¶

全新的控制轴：潜在频率是音乐生成中前所未有的控制维度——兼具可解释性和连续性
不同音乐属性对应不同频率范围：和弦在低频、旋律在中频、节奏在高频——这一发现本身就有音乐理论价值
均衡器的结构化类比：从操控声音频谱（均衡器）到操控音乐结构频谱（Latent Fourier），概念跃迁优雅

局限性 / 可改进方向¶

主要在单乐器/单声道场景验证，多轨混音评估不足
潜在频率的语义可解释性可进一步形式化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 潜在傅里叶域控制是全新概念
实验充分度: ⭐⭐⭐⭐⭐ 3 数据集+音乐家听力测试+隔离分析
写作质量: ⭐⭐⭐⭐⭐ 直觉解释优秀，音乐和机器学习读者都能理解
价值: ⭐⭐⭐⭐⭐ 为音乐生成提供了全新的可解释控制范式