Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations¶
会议: ACL 2026
arXiv: 2603.14432
代码: https://github.com/choddeok/Affectron
领域: 音频语音 / 语音合成
关键词: 非语言发声、情感语音合成、NV增强训练、情感路由、神经编解码语言模型
一句话总结¶
本文提出 Affectron 框架,通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略,在小规模开源解耦语料上实现了多样且情感对齐的非语言发声(如笑声、叹息)合成,显著超越了基于纯语言预训练的 VoiceCraft 基线。
研究背景与动机¶
领域现状:非语言发声(NVs),如笑声、叹息和哭泣,是情感语音合成中表达情感的关键手段。现有的表达性 TTS 系统主要依赖两类方法:标签控制 TTS(手动插入 NV 标签控制类型和位置)和自发风格 TTS(从上下文线索隐式预测 NV)。
现有痛点:标签控制方法依赖对齐标注或 NV 检测模型,检测模型的偏差和错误传播导致 NV 位置的时间不一致性。自发风格方法受限于专有数据集的不可复现性。公开可用的 NV 语料普遍偏向基础类型(如呼吸和笑声),且存在声学伪影,无法建模细粒度的 NV 变体(如轻笑、咯咯笑、窃笑的区别)。
核心矛盾:缺乏大规模、多样化、高质量的公开 NV 语料是根本瓶颈。现有的神经编解码语言模型(NCLM)虽然能在低质量语料上生成自然语音,但主要面向语音克隆,对细粒度 NV 的韵律变化控制能力不足。
本文目标:在小规模开源解耦语料上(语言语音和 NV 分别录制),实现情感一致且上下文对齐的多样化 NV 生成。
切入角度:作者观察到情感属性在相邻词段之间通常是渐变的而非突变的,时间间隔较短的词段之间情感角距离较小。因此,情感变化最小的位置可作为 NV 插入的自然锚点。
核心 idea:设计训练时 NV 增强策略,通过情感嵌入匹配选择合适的 NV 类型、通过情感角距离路由确定合适的插入位置,然后用增强后的样本微调预训练的 VoiceCraft 模型。
方法详解¶
整体框架¶
Affectron 以纯语言语音预训练的 VoiceCraft(330M 参数)为骨干,在训练时通过 NV 增强构造含 NV 的训练样本,微调骨干模型使其获得 NV 生成能力。推理时,模型直接从 NV 标注文本和情感参考语音生成输出,不需要匹配和路由过程。
关键设计¶
-
情感驱动的 Top-K NV 匹配(EDNM):
- 功能:为每个语言语音选择情感一致且多样的 NV 候选。
- 核心思路:给定语言语音 \(u\) 和说话人 \(s\),检索该说话人的所有 NV 候选,使用 Emotion2Vec 计算每个 NV 候选与语音的情感嵌入余弦相似度,选出 Top-K 候选并通过温度缩放的 softmax 归一化为概率分布,最多采样 2 个 NV。温度参数 \(\tau=0.7\),Top-K 设为 10。
- 设计动机:随机配对 NV 虽然能增加多样性,但缺乏情感一致性。基于情感嵌入的匹配保证选出的 NV 与语音情感状态对齐,同时通过概率采样而非确定性选择保留了多样性。
-
情感感知的 Top-K 路由(EAR):
- 功能:确定 NV 在语音中的最佳插入位置。
- 核心思路:使用 Montreal Forced Aligner 提取词级片段,用情感属性预测器为每个片段生成情感伪标签,将情感属性转换到球坐标系中计算角距离。对每个 NV 候选,计算其与所有潜在插入位置的情感距离 \(\Delta\)(基于球面上的弧余弦距离),选出距离最小的 Top-K 位置,通过负距离的 softmax 分布采样最终插入位置。
- 设计动机:NV 应插入在情感属性变化最小的位置(即情感稳定点),这样能保持情感连贯性同时增强表达力。使用球坐标而非直接欧氏距离更好地捕捉情感属性的方向性变化。
-
NV 结构掩码(NSM):
- 功能:让模型基于周围语言语音的情感上下文来生成 NV。
- 核心思路:扩展 VoiceCraft 的因果掩码策略——将 NV 编解码 token 序列按路由确定的位置重排,随机选择一个 NV 片段及其周围的语言 token 构成掩码跨度,将掩码内容移到序列末尾,然后应用延迟堆叠进行高效的多码本自回归建模。
- 设计动机:通过掩码和重排,模型在生成 NV 时可以同时利用前后文的情感上下文(双向条件),而非仅依赖历史信息,这对 NV 的自然性和情感表达至关重要。
损失函数 / 训练策略¶
使用 AdamW 优化器,学习率 \(1\times10^{-5}\),batch size 100(通过梯度累积),训练 50,000 步。在 4 块 NVIDIA RTX A6000 上训练约 5 天。训练数据来自 EARS 数据集(约 100 小时清洁语音 + 4 小时 NV,107 位说话人)。
实验关键数据¶
主实验(Seen Speakers)¶
| 方法 | NV-Acc↑ | NV-Sim↑ | NV-EECS↑ | NV-SECS↑ | WER↓ | V-EECS↑ |
|---|---|---|---|---|---|---|
| VoiceCraft (基线) | 10.49 | 0.5898 | 0.6149 | 0.8950 | 9.05 | 0.6212 |
| Affectron (全部) | 37.75 | 0.6118 | 0.5748 | 0.8906 | 6.59 | 0.6216 |
消融实验¶
| 配置 | NV-Acc↑ | NV-EECS↑ | 说明 |
|---|---|---|---|
| w/ DA only | 58.78 | 0.5455 | 仅数据增强,Acc高但情感不对齐 |
| w/ DA + EDNM | 35.83 | 0.5648 | 加情感匹配后EECS提升 |
| w/ DA + EDNM + EAR | 32.93 | 0.5707 | 加路由后EECS继续提升 |
| Full (+ NSM) | 37.75 | 0.5748 | 完整模型,NV质量最优 |
NV 类型与位置预测 vs LLM¶
| 方法 | Type JSD↓ | Type Acc@1↑ | Location JSD↓ |
|---|---|---|---|
| GPT-oss-20B | 0.1130 | 16.98 | 0.1278 |
| Affectron-330M | 0.0051 | 75.77 | 0.0523 |
关键发现¶
- Affectron 的 NV 类型分布对齐度远超所有 LLM 基线(JSD 仅 0.0051 vs 最好的 0.1130)
- 去掉 EDNM 后 NV-Acc 反而升高(随机匹配增加多样性),但 EECS 显著下降,证实情感对齐的重要性
- NSM 利用双向情感上下文,比标准因果掩码更适合 NV 生成
- 在 unseen speakers 上趋势一致,验证了零样本泛化能力
亮点与洞察¶
- 训练时增强、推理时零成本:匹配和路由模块仅训练时使用,推理时模型直接从标注文本生成,不增加推理开销。这种 train-time augmentation → inference-time simplification 模式值得借鉴。
- 球坐标系建模情感动态:将多维情感属性映射到球面上用角距离度量变化,比欧氏距离更好地捕捉情感方向性变化,可迁移到其他情感计算任务。
- 330M 小模型超越 7B-20B LLM:在 NV 类型预测上专用小模型大幅优于通用大模型,说明领域特定的显式情感建模比纯文本推理更有效。
局限与展望¶
- 仅在 EARS 数据集(约 100 小时)上验证,规模有限
- 语言语音和 NV 分开录制,无法建模两者在真实场景中的重叠现象
- NV 类型仅覆盖 15 种,未涵盖更丰富的非语言表达
- 未与 CosyVoice 等最新大规模 NV-capable TTS 系统直接比较
相关工作与启发¶
- vs VoiceCraft:原始仅支持语音克隆,NV 能力极弱。Affectron 通过增强训练赋予 NV 生成能力
- vs 标签控制 TTS(ELaTE, EmoCtrl-TTS):依赖 NV 检测模型标注数据,误差传播严重。Affectron 的情感路由基于情感属性计算
- vs CosyVoice:需要大规模高质量标注语料。Affectron 在小规模开源解耦语料上即可工作
评分¶
- 新颖性: ⭐⭐⭐⭐ 情感驱动的 NV 匹配和路由是新颖的增强策略
- 实验充分度: ⭐⭐⭐⭐ 消融实验细致,LLM 对比有说服力
- 写作质量: ⭐⭐⭐⭐ 从背景到方法到实验逻辑清晰
- 价值: ⭐⭐⭐ 领域较为细分,但增强策略思路可推广
相关论文¶
- [ECCV 2024] EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis
- [CVPR 2026] LaScA: Language-Conditioned Scalable Modelling of Affective Dynamics
- [ACL 2025] Autoregressive Speech Synthesis without Vector Quantization
- [ICLR 2026] Incentive-Aligned Multi-Source LLM Summaries
- [ACL 2026] Do We Need Distinct Representations for Every Speech Token? Unveiling and Exploiting Redundancy in Large Speech Language Models