Toward Complex-Valued Neural Networks for Waveform Generation¶

会议: ICLR 2026
arXiv: 2603.11589
代码: https://hs-oh-prml.github.io/ComVo/
领域: 语音合成 / 声码器
关键词: 复值神经网络, iSTFT声码器, 相位量化, GAN, 波形生成

一句话总结¶

提出 ComVo，首个在生成器和判别器中均使用复值神经网络（CVNN）的 iSTFT 声码器，通过相位量化层稳定训练，并引入块矩阵计算方案将训练时间减少 25%，在 LibriTTS 上合成质量超过 Vocos 等实值基线。

领域现状：iSTFT 声码器（如 Vocos、iSTFTNet）在频域直接预测复值谱图，通过 iSTFT 合成波形，避免了逐样本生成和学习式上采样带来的复杂度和延迟。

现有痛点：所有现有 iSTFT 声码器均使用实值网络（RVNN），将复数谱图的实部和虚部作为两个独立通道分别处理。这种分离破坏了复值谱图中实部与虚部之间的固有耦合关系——它们共同决定了幅度和相位。

核心矛盾：实值网络无法直接建模复数域中的代数结构（如复数乘法、旋转），导致相位建模不准确。控制实验表明，CVNN 在合成复值分布时的 JSD（Jensen-Shannon 散度）在幅度和相位上分别比 RVNN 低 64% 和 81%。

切入角度：复值神经网络（CVNN）将输入、激活和权重都表示为复数，能天然捕获实部-虚部之间的交叉依赖。但 CVNN 在声码器中从未被探索过——主要困难在于复域非线性变换设计和训练效率。

核心 idea：用 CVNN 构建生成器和判别器，形成完整的复域对抗训练框架；用相位量化作为归纳偏置稳定训练；用块矩阵计算方案提升效率。

输入 Mel 谱图（虚部初始化为零）→ 复值 ConvNeXt 生成器预测复值 STFT 谱 → iSTFT 合成波形。判别器包括复值多分辨率判别器（cMRD，直接在复值谱上操作）和实值多周期判别器（MPD，在波形上操作）。

复值生成器：
- 基于 Vocos 架构，所有 Conv1d 和 LayerNorm 替换为复值版本
- Split GELU 激活：对复数的实部和虚部分别施加 GELU，保持 ConvNeXt block 结构
- 复值域端到端保持实部-虚部交互
相位量化层（Phase Quantization）：
- 对复数特征 \(z = re^{i\theta}\)，将相位离散化为 \(N_q\) 个均匀级别：\(\theta_q = \frac{2\pi}{N_q} \cdot \text{round}(\frac{N_q}{2\pi}\theta)\)
- 使用直通估计器（STE）保持可微性
- 作用：限制中间表征的相位变化范围，作为正则化防止相位漂移，引导网络学习更结构化的相位模式
复值多分辨率判别器（cMRD）：
- 多个子判别器在不同 STFT 分辨率上操作
- 直接以复值谱图作为输入（而非将实/虚部拼接为独立通道）
- 对抗损失分别在实部和虚部上计算，使反馈尊重复域结构
块矩阵计算方案：
- 将复值运算 \(z' = Wz\)（其中 \(W = W_r + iW_i\)，\(z = x + iy\)）重写为 \(\begin{bmatrix} \text{Re}(z') \\ \text{Im}(z') \end{bmatrix} = \begin{bmatrix} W_r & -W_i \\ W_i & W_r \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}\)
- 将 4 个独立实值矩阵乘融合为单个块矩阵乘，减少冗余计算
- 通过自定义 autograd 函数实现，在前向和反向传播中均适用
- 训练时间减少约 25%

模型	UTMOS↑	PESQ↑	MR-STFT↓	MOS↑	CMOS↑
HiFi-GAN	3.35	2.94	1.05	4.00	-0.09
iSTFTNet	3.36	2.81	1.10	3.98	-0.04
BigVGAN	3.52	3.61	0.90	4.00	-0.01
Vocos (RVNN)	3.60	3.72	0.87	4.04	+0.02
ComVo (CVNN)	3.75	3.89	0.83	4.07	+0.10
Ground Truth	3.87	-	-	4.08	+0.14

配置	UTMOS↑	PESQ↑	说明
ComVo 完整	3.75	3.89	全复值 + 相位量化 + 块矩阵
w/o 相位量化	3.63	3.75	训练不稳定，相位漂移
w/o cMRD（仅 MPD）	3.58	3.68	缺少复域对抗反馈
RVNN 基线（同参数量）	3.60	3.72	公平对比：复值优势明确
块矩阵 vs 朴素实现	相同质量	相同质量	数学等价但训练快 25%