Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations¶

会议: ACL 2026
arXiv: 2603.14432
代码: https://github.com/choddeok/Affectron
领域: 音频语音 / 语音合成
关键词: 非语言发声、情感语音合成、NV增强训练、情感路由、神经编解码语言模型

一句话总结¶

本文提出 Affectron 框架，通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略，在小规模开源解耦语料上实现了多样且情感对齐的非语言发声（如笑声、叹息）合成，显著超越了基于纯语言预训练的 VoiceCraft 基线。

研究背景与动机¶

领域现状：非语言发声（NVs），如笑声、叹息和哭泣，是情感语音合成中表达情感的关键手段。现有的表达性 TTS 系统主要依赖两类方法：标签控制 TTS（手动插入 NV 标签控制类型和位置）和自发风格 TTS（从上下文线索隐式预测 NV）。

现有痛点：标签控制方法依赖对齐标注或 NV 检测模型，检测模型的偏差和错误传播导致 NV 位置的时间不一致性。自发风格方法受限于专有数据集的不可复现性。公开可用的 NV 语料普遍偏向基础类型（如呼吸和笑声），且存在声学伪影，无法建模细粒度的 NV 变体（如轻笑、咯咯笑、窃笑的区别）。

核心矛盾：缺乏大规模、多样化、高质量的公开 NV 语料是根本瓶颈。现有的神经编解码语言模型（NCLM）虽然能在低质量语料上生成自然语音，但主要面向语音克隆，对细粒度 NV 的韵律变化控制能力不足。

本文目标：在小规模开源解耦语料上（语言语音和 NV 分别录制），实现情感一致且上下文对齐的多样化 NV 生成。

切入角度：作者观察到情感属性在相邻词段之间通常是渐变的而非突变的，时间间隔较短的词段之间情感角距离较小。因此，情感变化最小的位置可作为 NV 插入的自然锚点。

核心 idea：设计训练时 NV 增强策略，通过情感嵌入匹配选择合适的 NV 类型、通过情感角距离路由确定合适的插入位置，然后用增强后的样本微调预训练的 VoiceCraft 模型。

方法详解¶

整体框架¶

Affectron 以纯语言语音预训练的 VoiceCraft（330M 参数）为骨干，在训练时通过 NV 增强构造含 NV 的训练样本，微调骨干模型使其获得 NV 生成能力。推理时，模型直接从 NV 标注文本和情感参考语音生成输出，不需要匹配和路由过程。

关键设计¶

情感驱动的 Top-K NV 匹配（EDNM）:
- 功能：为每个语言语音选择情感一致且多样的 NV 候选。
- 核心思路：给定语言语音 \(u\) 和说话人 \(s\)，检索该说话人的所有 NV 候选，使用 Emotion2Vec 计算每个 NV 候选与语音的情感嵌入余弦相似度，选出 Top-K 候选并通过温度缩放的 softmax 归一化为概率分布，最多采样 2 个 NV。温度参数 \(\tau=0.7\)，Top-K 设为 10。
- 设计动机：随机配对 NV 虽然能增加多样性，但缺乏情感一致性。基于情感嵌入的匹配保证选出的 NV 与语音情感状态对齐，同时通过概率采样而非确定性选择保留了多样性。
情感感知的 Top-K 路由（EAR）:
- 功能：确定 NV 在语音中的最佳插入位置。
- 核心思路：使用 Montreal Forced Aligner 提取词级片段，用情感属性预测器为每个片段生成情感伪标签，将情感属性转换到球坐标系中计算角距离。对每个 NV 候选，计算其与所有潜在插入位置的情感距离 \(\Delta\)（基于球面上的弧余弦距离），选出距离最小的 Top-K 位置，通过负距离的 softmax 分布采样最终插入位置。
- 设计动机：NV 应插入在情感属性变化最小的位置（即情感稳定点），这样能保持情感连贯性同时增强表达力。使用球坐标而非直接欧氏距离更好地捕捉情感属性的方向性变化。
NV 结构掩码（NSM）:
- 功能：让模型基于周围语言语音的情感上下文来生成 NV。
- 核心思路：扩展 VoiceCraft 的因果掩码策略——将 NV 编解码 token 序列按路由确定的位置重排，随机选择一个 NV 片段及其周围的语言 token 构成掩码跨度，将掩码内容移到序列末尾，然后应用延迟堆叠进行高效的多码本自回归建模。
- 设计动机：通过掩码和重排，模型在生成 NV 时可以同时利用前后文的情感上下文（双向条件），而非仅依赖历史信息，这对 NV 的自然性和情感表达至关重要。

损失函数 / 训练策略¶

使用 AdamW 优化器，学习率 \(1\times10^{-5}\)，batch size 100（通过梯度累积），训练 50,000 步。在 4 块 NVIDIA RTX A6000 上训练约 5 天。训练数据来自 EARS 数据集（约 100 小时清洁语音 + 4 小时 NV，107 位说话人）。

实验关键数据¶

主实验（Seen Speakers）¶

方法	NV-Acc↑	NV-Sim↑	NV-EECS↑	NV-SECS↑	WER↓	V-EECS↑
VoiceCraft (基线)	10.49	0.5898	0.6149	0.8950	9.05	0.6212
Affectron (全部)	37.75	0.6118	0.5748	0.8906	6.59	0.6216

消融实验¶

配置	NV-Acc↑	NV-EECS↑	说明
w/ DA only	58.78	0.5455	仅数据增强，Acc高但情感不对齐
w/ DA + EDNM	35.83	0.5648	加情感匹配后EECS提升
w/ DA + EDNM + EAR	32.93	0.5707	加路由后EECS继续提升
Full (+ NSM)	37.75	0.5748	完整模型，NV质量最优

NV 类型与位置预测 vs LLM¶

方法	Type JSD↓	Type Acc@1↑	Location JSD↓
GPT-oss-20B	0.1130	16.98	0.1278
Affectron-330M	0.0051	75.77	0.0523

关键发现¶

Affectron 的 NV 类型分布对齐度远超所有 LLM 基线（JSD 仅 0.0051 vs 最好的 0.1130）
去掉 EDNM 后 NV-Acc 反而升高（随机匹配增加多样性），但 EECS 显著下降，证实情感对齐的重要性
NSM 利用双向情感上下文，比标准因果掩码更适合 NV 生成
在 unseen speakers 上趋势一致，验证了零样本泛化能力

亮点与洞察¶

训练时增强、推理时零成本：匹配和路由模块仅训练时使用，推理时模型直接从标注文本生成，不增加推理开销。这种 train-time augmentation → inference-time simplification 模式值得借鉴。
球坐标系建模情感动态：将多维情感属性映射到球面上用角距离度量变化，比欧氏距离更好地捕捉情感方向性变化，可迁移到其他情感计算任务。
330M 小模型超越 7B-20B LLM：在 NV 类型预测上专用小模型大幅优于通用大模型，说明领域特定的显式情感建模比纯文本推理更有效。

局限与展望¶

仅在 EARS 数据集（约 100 小时）上验证，规模有限
语言语音和 NV 分开录制，无法建模两者在真实场景中的重叠现象
NV 类型仅覆盖 15 种，未涵盖更丰富的非语言表达
未与 CosyVoice 等最新大规模 NV-capable TTS 系统直接比较

评分¶

新颖性: ⭐⭐⭐⭐ 情感驱动的 NV 匹配和路由是新颖的增强策略
实验充分度: ⭐⭐⭐⭐ 消融实验细致，LLM 对比有说服力
写作质量: ⭐⭐⭐⭐ 从背景到方法到实验逻辑清晰
价值: ⭐⭐⭐ 领域较为细分，但增强策略思路可推广