Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech Synthesis¶

会议: ACL 2025
arXiv: 2505.12597
代码: https://github.com/AI-S2-Lab/Chain-Talker (有)
领域: 语音
关键词: 对话语音合成, 共情语音, 链式建模, 情感描述, 语义编码

一句话总结¶

提出 Chain-Talker，通过三阶段链式建模（情感理解→语义理解→共情渲染）实现可解释的共情对话语音合成，并开发 CSS-EmCap 自动标注管道为对话语音生成情感描述。

研究背景与动机¶

领域现状: 对话语音合成（CSS）旨在根据用户-智能体交互的情感和风格上下文，生成与对话情境匹配的语音。近年来基于 GPT 的 CSS 模型（如 GPT-Talker）通过直接预测语音 token 序列显著提升了自然度和表达力。
现有痛点: 当前生成式 CSS 模型存在两个可解释性问题：(1) 语音生成未充分理解对话情感，难以实现真正的共情；(2) 通用离散语音编码包含过多冗余信息，混合了语义和声学信息，表达能力受限。
核心矛盾: 直接从对话上下文预测语音 token 的端到端方式缺乏可解释性——模型既没有显式地理解情感变化，也没有高效地分离语义与声学信息。
本文要解决什么: 如何让 CSS 系统像人类一样逐步理解对话情感、提取语义信息、最终生成共情语音，同时如何为对话语音自动生成高质量的情感描述标注。
切入角度: 借鉴人类链式思维（Chain-of-Thought），将 CSS 分解为三个阶段：先理解情感、再理解语义、最后共情渲染。同时利用 LLM 构建自动的对话感知情感描述管道。
核心idea一句话: 模拟人类认知的三阶段链式建模——先感知情感、再编码语义、后渲染语音——实现可解释的共情对话语音合成。

方法详解¶

整体框架¶

Chain-Talker 由两个主要组件构成：EmGPT 和 Synthesizer。EmGPT 负责情感理解和语义理解，基于自回归 GPT 架构；Synthesizer 负责共情语音渲染，基于 OT-CFM（最优传输条件流匹配）模型。

输入序列 \(\mathcal{Q} = (\langle BOS \rangle, \mathcal{H}, \mathcal{C}, \langle EOS \rangle)\)，其中 \(\mathcal{H}\) 为对话历史，\(\mathcal{C}\) 为当前要合成的语句。

关键设计¶

模块1: 统一上下文 Token 化（Unified Context Tokenization）

做什么: 将多模态对话信息统一编码
核心思路: 按说话人信息、语音、文本内容、情感描述的顺序交替拼接用户和智能体的发言。文本用 BPE 编码为 \(T_n^t\)，情感描述编码为 \(T_n^d\)，说话人向量用预训练声纹模型提取 \(T_n^p\)，语音用监督式 ASR 模型（含 VQ）编码为 \(T_n^a\)
设计动机: 让模型先理解上下文再预测情感，然后生成对应语音，统一多模态信息到同一序列空间

模块2: 情感理解（Emotion Understanding）

做什么: 根据对话上下文预测当前语句的情感描述 token
核心思路: 利用 EmGPT 自回归预测情感描述 \(T_N^d\)：\(p(T_{N,:}^d | \Re_{1 \to N-1}, T_{N,:}^p, T_{N,:}^t; \Theta) = \prod_{j=0}^{D} p(T_{N,j}^d | T_{N,<j}^d, \Re_{1 \to N-1}, T_{N,:}^p, T_{N,:}^t; \Theta)\)
设计动机: 显式理解对话中的情感变化，为后续语音生成提供情感指导

模块3: 语义理解（Semantic Understanding）

做什么: 在情感理解基础上继续预测纯语义语音编码
核心思路: EmGPT 利用预测的情感描述 \(T_N^d\) 与上下文信息进一步预测语义编码 \(T_N^a\)：\(p(T_{N,:}^a | \Re_{1 \to N-1}, T_N^p, T_N^t, T_N^d; \Theta)\)
设计动机: 使用监督式 ASR 模型产生的纯语义编码，避免通用离散编码中的冗余声学信息

模块4: 共情渲染（Empathetic Rendering）

做什么: 利用情感描述和语义编码合成最终的共情语音
核心思路: 采用 OT-CFM 作为 backbone 预测 Mel 频谱图，使用 HIFI-GAN 合成波形。OT-CFM 同时利用情感描述 \(U_N^d\)、说话人信息 \(U_{agent}^p\)、语义编码 \(T_N^a\) 和掩码 Mel 频谱图 \(U_{agent}^m\) 来预测向量场：\(\frac{d\phi_t(X)}{dt} = \nu_t(\phi_t(X), t | U_{agent}^p, U_N^d, T_N^a, U_{agent}^m)\)
设计动机: 利用情感描述在解码阶段指导情感和风格渲染，而非直接从语音 token 解码

损失函数/训练策略¶

训练损失: - EmGPT 训练分为两个损失：\(\mathcal{L}_{caption}\)（情感描述 token 的交叉熵损失）和 \(\mathcal{L}_{speech}\)（语义编码的交叉熵损失） - Synthesizer 使用 OT-CFM 损失：\(\mathcal{L}_{OT\text{-}CFM} = \mathbb{E}_{t,X_0,X_1}[\|\omega_t(\phi_t^{OT}(X_0,X_1)|X_1) - \nu_t(\phi_t^{OT}(X_0,X_1)|\theta)\|]\)

多阶段训练: - 第一阶段: 使用大规模单句 TTS 数据训练（基于 CosyVoice-300M-25Hz，约 17 万小时语音数据） - 第二阶段: 使用对话数据微调，学习根据对话上下文推断情感描述并预测语义编码 - Synthesizer 可单独用单句模式训练

CSS-EmCap 管道: - 多层级属性提取：句子级风格因子（性别、音高、能量、语速）+ 对话级情感分类 - 两步生成：基于上下文和属性生成基础描述，再通过同义词替换和情感强度变化扩展丰富

实验关键数据¶

主实验¶

使用 NCSSD、DailyTalk、MultiDialog 三个数据集（共约 384 小时）。

方法	DMOS-N ↑	DMOS-E ↑	ACCm ↑	DDTW ↓	SSIM ↑
Ground Truth	4.467	4.571	-	-	-
CCATTS	3.423	3.469	0.462	67.851	0.765
GPT-Talker	3.962	3.913	0.562	44.625	0.814
GPT-Talker_c	4.045	4.102	0.589	40.374	0.829
Chain-Talker	4.147	4.239	0.612	38.784	0.862

CSS-EmCap 标注质量：

方法	DMOS-C ↑	SIM_R ↑	SIM_G ↑	DIS-1 ↑	DIS-2 ↑
Qwen2-Audio	4.212	0.431	0.534	0.086	0.174
SECap	4.268	0.475	0.617	0.081	0.186
CSS-EmCap	4.462	0.568	0.694	0.106	0.296

消融实验¶

配置	DMOS-N ↑	DMOS-E ↑	ACCm ↑	DDTW ↓	SSIM ↑
Chain-Talker	4.147	4.239	0.612	38.784	0.862
w/o context	3.982	3.984	0.564	43.589	0.847
w/o captions	4.037	4.084	0.571	43.479	0.836
w/o \(\mathcal{L}^{caption}\)	3.947	3.956	0.568	45.764	0.829
w/o First-Stage	3.756	3.789	0.517	52.640	0.793

关键发现¶

Chain-Talker 在自然度 MOS 上比最强 baseline 高 0.102，表达力 MOS 高 0.112
移除对话历史（w/o context）导致 DMOS-E 下降 0.255，证明上下文建模的重要性
移除情感描述损失（w/o \(\mathcal{L}^{caption}\)）导致 DMOS-N 下降 0.2、DMOS-E 下降 0.283
移除第一阶段预训练导致所有指标大幅下降，证明大规模预训练的必要性
对话轮数 \(N\)=3 时性能最优，约 200 epoch 达到峰值

亮点与洞察¶

链式建模思想的引入非常优雅，将复杂的 CSS 任务分解为可解释的三步认知链，符合人类"先理解情感→再理解内容→最后表达"的直觉
CSS-EmCap 管道的设计思路值得借鉴：先提取结构化属性，再用 LLM 生成自然语言描述，最后验证，形成闭环
使用监督式语义编码替代通用离散编码是一个关键设计选择——去除声学冗余信息让语义理解更纯粹
情感描述（自然语言）优于传统情感标签（DMOS-C 4.462 > GT 的 4.327），说明自然语言在控制语音风格上更具表达力

局限性/可改进方向¶

推理延迟: 平均 2.5 秒的响应时间尚未达到实时交互要求，流式推理是重要方向
数据规模: 对话数据仅 384 小时且以年轻说话人为主，对儿童和老年人风格覆盖不足
安全风险: 零样本语音合成能力可能被滥用于语音伪造
情感描述生成依赖 Gemini API，增加了对外部大模型的依赖

评分¶

新颖性: ⭐⭐⭐⭐ (链式建模在CSS中的首次应用，思路清晰)
实验充分度: ⭐⭐⭐⭐ (三个数据集+充分消融+可视化分析)
写作质量: ⭐⭐⭐⭐ (结构清晰，图表丰富)
价值: ⭐⭐⭐⭐ (CSS-EmCap管道和链式设计对社区有参考价值)