跳转至

Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations

会议: ACL 2026
arXiv: 2603.14432
代码: https://github.com/choddeok/Affectron
领域: 音频语音 / 语音合成
关键词: 非语言发声、情感语音合成、NV增强训练、情感路由、神经编解码语言模型

一句话总结

本文提出 Affectron 框架,通过情感驱动的 Top-K NV 匹配和情感感知的 Top-K 路由两个训练时增强策略,在小规模开源解耦语料上实现了多样且情感对齐的非语言发声(如笑声、叹息)合成,显著超越了基于纯语言预训练的 VoiceCraft 基线。

研究背景与动机

领域现状:非语言发声(NVs),如笑声、叹息和哭泣,是情感语音合成中表达情感的关键手段。现有的表达性 TTS 系统主要依赖两类方法:标签控制 TTS(手动插入 NV 标签控制类型和位置)和自发风格 TTS(从上下文线索隐式预测 NV)。

现有痛点:标签控制方法依赖对齐标注或 NV 检测模型,检测模型的偏差和错误传播导致 NV 位置的时间不一致性。自发风格方法受限于专有数据集的不可复现性。公开可用的 NV 语料普遍偏向基础类型(如呼吸和笑声),且存在声学伪影,无法建模细粒度的 NV 变体(如轻笑、咯咯笑、窃笑的区别)。

核心矛盾:缺乏大规模、多样化、高质量的公开 NV 语料是根本瓶颈。现有的神经编解码语言模型(NCLM)虽然能在低质量语料上生成自然语音,但主要面向语音克隆,对细粒度 NV 的韵律变化控制能力不足。

本文目标:在小规模开源解耦语料上(语言语音和 NV 分别录制),实现情感一致且上下文对齐的多样化 NV 生成。

切入角度:作者观察到情感属性在相邻词段之间通常是渐变的而非突变的,时间间隔较短的词段之间情感角距离较小。因此,情感变化最小的位置可作为 NV 插入的自然锚点。

核心 idea:设计训练时 NV 增强策略,通过情感嵌入匹配选择合适的 NV 类型、通过情感角距离路由确定合适的插入位置,然后用增强后的样本微调预训练的 VoiceCraft 模型。

方法详解

整体框架

Affectron 以纯语言语音预训练的 VoiceCraft(330M 参数)为骨干,在训练时通过 NV 增强构造含 NV 的训练样本,微调骨干模型使其获得 NV 生成能力。推理时,模型直接从 NV 标注文本和情感参考语音生成输出,不需要匹配和路由过程。

关键设计

  1. 情感驱动的 Top-K NV 匹配(EDNM):

    • 功能:为每个语言语音选择情感一致且多样的 NV 候选。
    • 核心思路:给定语言语音 \(u\) 和说话人 \(s\),检索该说话人的所有 NV 候选,使用 Emotion2Vec 计算每个 NV 候选与语音的情感嵌入余弦相似度,选出 Top-K 候选并通过温度缩放的 softmax 归一化为概率分布,最多采样 2 个 NV。温度参数 \(\tau=0.7\),Top-K 设为 10。
    • 设计动机:随机配对 NV 虽然能增加多样性,但缺乏情感一致性。基于情感嵌入的匹配保证选出的 NV 与语音情感状态对齐,同时通过概率采样而非确定性选择保留了多样性。
  2. 情感感知的 Top-K 路由(EAR):

    • 功能:确定 NV 在语音中的最佳插入位置。
    • 核心思路:使用 Montreal Forced Aligner 提取词级片段,用情感属性预测器为每个片段生成情感伪标签,将情感属性转换到球坐标系中计算角距离。对每个 NV 候选,计算其与所有潜在插入位置的情感距离 \(\Delta\)(基于球面上的弧余弦距离),选出距离最小的 Top-K 位置,通过负距离的 softmax 分布采样最终插入位置。
    • 设计动机:NV 应插入在情感属性变化最小的位置(即情感稳定点),这样能保持情感连贯性同时增强表达力。使用球坐标而非直接欧氏距离更好地捕捉情感属性的方向性变化。
  3. NV 结构掩码(NSM):

    • 功能:让模型基于周围语言语音的情感上下文来生成 NV。
    • 核心思路:扩展 VoiceCraft 的因果掩码策略——将 NV 编解码 token 序列按路由确定的位置重排,随机选择一个 NV 片段及其周围的语言 token 构成掩码跨度,将掩码内容移到序列末尾,然后应用延迟堆叠进行高效的多码本自回归建模。
    • 设计动机:通过掩码和重排,模型在生成 NV 时可以同时利用前后文的情感上下文(双向条件),而非仅依赖历史信息,这对 NV 的自然性和情感表达至关重要。

损失函数 / 训练策略

使用 AdamW 优化器,学习率 \(1\times10^{-5}\),batch size 100(通过梯度累积),训练 50,000 步。在 4 块 NVIDIA RTX A6000 上训练约 5 天。训练数据来自 EARS 数据集(约 100 小时清洁语音 + 4 小时 NV,107 位说话人)。

实验关键数据

主实验(Seen Speakers)

方法 NV-Acc↑ NV-Sim↑ NV-EECS↑ NV-SECS↑ WER↓ V-EECS↑
VoiceCraft (基线) 10.49 0.5898 0.6149 0.8950 9.05 0.6212
Affectron (全部) 37.75 0.6118 0.5748 0.8906 6.59 0.6216

消融实验

配置 NV-Acc↑ NV-EECS↑ 说明
w/ DA only 58.78 0.5455 仅数据增强,Acc高但情感不对齐
w/ DA + EDNM 35.83 0.5648 加情感匹配后EECS提升
w/ DA + EDNM + EAR 32.93 0.5707 加路由后EECS继续提升
Full (+ NSM) 37.75 0.5748 完整模型,NV质量最优

NV 类型与位置预测 vs LLM

方法 Type JSD↓ Type Acc@1↑ Location JSD↓
GPT-oss-20B 0.1130 16.98 0.1278
Affectron-330M 0.0051 75.77 0.0523

关键发现

  • Affectron 的 NV 类型分布对齐度远超所有 LLM 基线(JSD 仅 0.0051 vs 最好的 0.1130)
  • 去掉 EDNM 后 NV-Acc 反而升高(随机匹配增加多样性),但 EECS 显著下降,证实情感对齐的重要性
  • NSM 利用双向情感上下文,比标准因果掩码更适合 NV 生成
  • 在 unseen speakers 上趋势一致,验证了零样本泛化能力

亮点与洞察

  • 训练时增强、推理时零成本:匹配和路由模块仅训练时使用,推理时模型直接从标注文本生成,不增加推理开销。这种 train-time augmentation → inference-time simplification 模式值得借鉴。
  • 球坐标系建模情感动态:将多维情感属性映射到球面上用角距离度量变化,比欧氏距离更好地捕捉情感方向性变化,可迁移到其他情感计算任务。
  • 330M 小模型超越 7B-20B LLM:在 NV 类型预测上专用小模型大幅优于通用大模型,说明领域特定的显式情感建模比纯文本推理更有效。

局限与展望

  • 仅在 EARS 数据集(约 100 小时)上验证,规模有限
  • 语言语音和 NV 分开录制,无法建模两者在真实场景中的重叠现象
  • NV 类型仅覆盖 15 种,未涵盖更丰富的非语言表达
  • 未与 CosyVoice 等最新大规模 NV-capable TTS 系统直接比较

相关工作与启发

  • vs VoiceCraft:原始仅支持语音克隆,NV 能力极弱。Affectron 通过增强训练赋予 NV 生成能力
  • vs 标签控制 TTS(ELaTE, EmoCtrl-TTS):依赖 NV 检测模型标注数据,误差传播严重。Affectron 的情感路由基于情感属性计算
  • vs CosyVoice:需要大规模高质量标注语料。Affectron 在小规模开源解耦语料上即可工作

评分

  • 新颖性: ⭐⭐⭐⭐ 情感驱动的 NV 匹配和路由是新颖的增强策略
  • 实验充分度: ⭐⭐⭐⭐ 消融实验细致,LLM 对比有说服力
  • 写作质量: ⭐⭐⭐⭐ 从背景到方法到实验逻辑清晰
  • 价值: ⭐⭐⭐ 领域较为细分,但增强策略思路可推广

相关论文