跳转至

DNCASR: End-to-End Training for Speaker-Attributed ASR

会议: ACL 2025
arXiv: 2506.01916
代码: 无
领域: 语音
关键词: speaker-attributed ASR, neural clustering, end-to-end training, multi-speaker meeting, overlapping speech

一句话总结

提出 DNCASR,一种端到端可训练的说话人归因 ASR 系统,通过链接神经聚类解码器和 ASR 解码器,联合训练生成带说话人标识的转录文本,在 AMI 会议数据上实现 cpWER 9.0% 的相对降低。

研究背景与动机

  1. 领域现状: 多说话人会议转录需要同时解决"谁说了什么"(who spoke what)问题,传统方法将说话人日志(diarization)和 ASR 作为两个独立子系统级联使用,包括 VAD、说话人 embedding 提取和聚类三个阶段。

  2. 现有痛点: 级联系统中日志和 ASR 独立训练,无法考虑二者的交互信息。现有的集成方法(如 EEND)无法处理长会议的完整波形;基于说话人 inventory 的方法需要预知说话人身份;并行系统(Parallel System)虽然使用神经聚类,但 DNC 和 ASR 模块独立训练,存在说话人索引与 ASR 序列化输出不对齐的问题。

  3. 核心矛盾: DNC 模块处理的是整个会议的窗口级说话人 embedding(全局信息),而 ASR 模块只处理单个 VAD 段的波形(局部信息),输入差异巨大导致联合训练困难。并行系统中 DNC 无法获得 ASR 的词序信息,可能将序列化输出中第二个 turn 的说话人索引错误分配给第一个 turn。

  4. 本文要解决什么: 实现端到端可训练的说话人归因 ASR,让 DNC 模块利用 ASR 的隐藏特征来更准确地分配说话人索引,特别是在重叠语音片段中。

  5. 切入角度: 在 DNC 解码器中引入 Link Cross Attention 模块,将 ASR 解码器的隐藏特征传递给 DNC,实现信息流通;设计两阶段联合微调策略。

  6. 核心idea一句话: 通过在神经聚类解码器中添加对 ASR 解码器词级特征的交叉注意力链接,实现端到端联合训练的说话人归因 ASR。

方法详解

整体框架

DNCASR 由两个编码器和两个链接的解码器组成: - Wav Encoder: 使用 WavLM(wavlm-base-plus)编码局部波形信息,输出 \(\bm{E_w}\) - Spk Encoder: 使用 ECAPA-TDNN 提取的窗口级说话人 embedding 作为输入,编码全局说话人特征,输出 \(\bm{E_s}\) - ASR Decoder: 标准 Transformer 解码器,生成带说话人切换 token(<sc>)的序列化转录 - DNC Decoder: 修改的 Transformer 解码器,包含 Spk Cross Attn 和 Link Cross Attn 两个交叉注意力模块

关键设计

  1. Link Cross Attention 模块: DNC 解码器每个 block 中新增第二个交叉注意力模块,query 来自 Spk Cross Attn 输出 \(\bm{S}_{\text{CA}}[i]\),key/value 来自 ASR 解码器对应 block 的 Wav Cross Attn 输出 \(\bm{W}_{\text{CA}}\)。通过 mask 机制确保每个说话人索引只关注其对应 turn 的词特征:
\[\bm{L}_{\text{CA}}[i] = \text{CA}(\bm{S}_{\text{CA}}[i], \bm{W}_{\text{CA}} \odot \text{mask}_l[i])\]

这使得 DNC 能获取 ASR 的高分辨率词级信息,将说话人索引与 ASR 输出的说话人 turn 对齐。

  1. 两阶段联合微调:
  2. Stage 1: DNC 和 ASR 模块联合训练,损失函数为两个交叉熵损失之和。DNC 训练目标是从第一段到当前段的说话人索引,ASR 目标是当前段的词序列。此阶段 Link Cross Attn 只能关注当前段的 \(\bm{W}_{\text{CA}}\) 特征,过去段使用可学习的 <pad> embedding。
  3. Stage 2: 冻结 ASR 模块,仅微调 DNC 解码器。预先计算整个会议所有段的 \(\bm{W}_{\text{CA}}\) 特征,使每个说话人索引都能关注其对应的词级特征(不再需要 <pad>)。训练目标是整个会议的说话人索引。

  4. Constrained Diaconis Augmentation (CDA): 针对训练数据不足问题,在原有 Diaconis 增强基础上约束说话人 embedding 的旋转角度,避免过度旋转导致性能下降。随机设置 scale 在 0-10 之间。

损失函数/训练策略

  • 预训练阶段:DNC 和 ASR 分别独立训练,DNC 在仅含单说话人的片段上预训练
  • 联合训练损失:\(\mathcal{L} = \mathcal{L}_{\text{DNC}} + \mathcal{L}_{\text{ASR}}\),两个交叉熵损失之和
  • 使用 Serialized Output Training (SOT) 处理重叠语音
  • AMI 数据使用 First Speaker Segmentation (FSS) 方法生成单说话人预训练数据

实验关键数据

主实验

合成数据结果 (cpWER %):

模型 WER cpWER
Parallel 3.5 13.4
DNCASR (S1) 3.5 9.5
DNCASR (S2) 3.5 8.7

AMI-MDM cpWER 结果 (Dev/Eval %):

模型 cpWER cpWER-Multi
Cascaded 35.2/33.0 46.0/46.1
Parallel 34.8/34.6 49.8/49.2
DNCASR (S1) 33.2/34.7 47.3/49.5
DNCASR (S2) 31.3/32.1 43.4/44.8
DNCASR (S2)+CDA 30.7/31.5 42.5/44.1

消融实验

Oracle 词序列下的 AMI Eval 结果 (%):

模型 DER cpWER-All cpWER-Single cpWER-Multi
DNCASR (S1) 6.7 19.3 5.6 33.3
DNCASR (S2) 6.5 17.8 6.5 28.5
DNCASR (S2)+CDA 6.3 17.4 6.3 28.3

关键发现

  • DNCASR (S2)+CDA 相比 Parallel 系统在 AMI Dev/Eval 上分别取得 11.8%9.0% 的相对 cpWER 降低
  • 多说话人段 cpWER-Multi 降低更显著:Dev 14.7%,Eval 10.4%,说明改进主要来自重叠语音处理
  • 合成数据实验中 Stage 2 相比 Parallel 系统 cpWER 相对降低 35.1%
  • Oracle 实验证明单说话人段 Stage 2 反而略差于 Stage 1,改进集中在多说话人段(15.0% 相对降低)
  • Wilcoxon 检验 p-value < 1e-6,34 个会议中 31 个改善,统计显著性强

亮点与洞察

  • 信息流设计精巧: Link Cross Attention 的 mask 机制自然地将 ASR 词级特征与 DNC 说话人索引对齐,解决了并行系统中的对齐漏洞
  • 两阶段训练渐进设计: Stage 1 处理当前段(带 <pad>),Stage 2 处理全会议,逐步扩大 DNC 的感知范围
  • 不需要非神经聚类: 完全端到端,不依赖谱聚类等传统方法

局限性/可改进方向

  1. 仍依赖独立的说话人 embedding 提取模块(ECAPA-TDNN)和独立的 VAD,未实现真正全端到端
  2. 仅在 AMI 数据集上验证,未测试其他多说话人数据集
  3. 主实验使用较小的 WavLM-base-plus,附录显示换用 WavLM-large 可进一步提升 10% 以上
  4. 训练数据量有限(AMI 仅 100 小时),未与使用大规模监督数据的系统比较

相关工作与启发

  • EEND (Fujita et al., 2019) 系列端到端日志方法无法处理长会议全波形,启发了使用说话人 embedding 替代波形的策略
  • SOT (Kanda et al., 2020b) 的序列化输出方式被沿用,成为处理重叠语音的关键
  • 可以考虑将 DNCASR 与更强的基础模型(如 Whisper)结合以提升 ASR 性能进而改善说话人归因

评分

  • 新颖性: ⭐⭐⭐⭐ — Link Cross Attention 设计新颖且有效
  • 实验充分度: ⭐⭐⭐⭐ — 合成+真实数据,Oracle/非 Oracle,统计检验齐全
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示详尽
  • 价值: ⭐⭐⭐⭐ — 对多说话人会议转录领域有实质推动