DNCASR: End-to-End Training for Speaker-Attributed ASR¶

会议: ACL 2025
arXiv: 2506.01916
代码: 无
领域: 语音
关键词: speaker-attributed ASR, neural clustering, end-to-end training, multi-speaker meeting, overlapping speech

一句话总结¶

提出 DNCASR，一种端到端可训练的说话人归因 ASR 系统，通过链接神经聚类解码器和 ASR 解码器，联合训练生成带说话人标识的转录文本，在 AMI 会议数据上实现 cpWER 9.0% 的相对降低。

研究背景与动机¶

领域现状: 多说话人会议转录需要同时解决"谁说了什么"（who spoke what）问题，传统方法将说话人日志（diarization）和 ASR 作为两个独立子系统级联使用，包括 VAD、说话人 embedding 提取和聚类三个阶段。
现有痛点: 级联系统中日志和 ASR 独立训练，无法考虑二者的交互信息。现有的集成方法（如 EEND）无法处理长会议的完整波形；基于说话人 inventory 的方法需要预知说话人身份；并行系统（Parallel System）虽然使用神经聚类，但 DNC 和 ASR 模块独立训练，存在说话人索引与 ASR 序列化输出不对齐的问题。
核心矛盾: DNC 模块处理的是整个会议的窗口级说话人 embedding（全局信息），而 ASR 模块只处理单个 VAD 段的波形（局部信息），输入差异巨大导致联合训练困难。并行系统中 DNC 无法获得 ASR 的词序信息，可能将序列化输出中第二个 turn 的说话人索引错误分配给第一个 turn。
本文要解决什么: 实现端到端可训练的说话人归因 ASR，让 DNC 模块利用 ASR 的隐藏特征来更准确地分配说话人索引，特别是在重叠语音片段中。
切入角度: 在 DNC 解码器中引入 Link Cross Attention 模块，将 ASR 解码器的隐藏特征传递给 DNC，实现信息流通；设计两阶段联合微调策略。
核心idea一句话: 通过在神经聚类解码器中添加对 ASR 解码器词级特征的交叉注意力链接，实现端到端联合训练的说话人归因 ASR。

方法详解¶

整体框架¶

DNCASR 由两个编码器和两个链接的解码器组成： - Wav Encoder: 使用 WavLM（wavlm-base-plus）编码局部波形信息，输出 \(\bm{E_w}\) - Spk Encoder: 使用 ECAPA-TDNN 提取的窗口级说话人 embedding 作为输入，编码全局说话人特征，输出 \(\bm{E_s}\) - ASR Decoder: 标准 Transformer 解码器，生成带说话人切换 token（<sc>）的序列化转录 - DNC Decoder: 修改的 Transformer 解码器，包含 Spk Cross Attn 和 Link Cross Attn 两个交叉注意力模块

关键设计¶

Link Cross Attention 模块: DNC 解码器每个 block 中新增第二个交叉注意力模块，query 来自 Spk Cross Attn 输出 \(\bm{S}_{\text{CA}}[i]\)，key/value 来自 ASR 解码器对应 block 的 Wav Cross Attn 输出 \(\bm{W}_{\text{CA}}\)。通过 mask 机制确保每个说话人索引只关注其对应 turn 的词特征：

\[\bm{L}_{\text{CA}}[i] = \text{CA}(\bm{S}_{\text{CA}}[i], \bm{W}_{\text{CA}} \odot \text{mask}_l[i])\]

这使得 DNC 能获取 ASR 的高分辨率词级信息，将说话人索引与 ASR 输出的说话人 turn 对齐。

两阶段联合微调:
Stage 1: DNC 和 ASR 模块联合训练，损失函数为两个交叉熵损失之和。DNC 训练目标是从第一段到当前段的说话人索引，ASR 目标是当前段的词序列。此阶段 Link Cross Attn 只能关注当前段的 \(\bm{W}_{\text{CA}}\) 特征，过去段使用可学习的 <pad> embedding。
Stage 2: 冻结 ASR 模块，仅微调 DNC 解码器。预先计算整个会议所有段的 \(\bm{W}_{\text{CA}}\) 特征，使每个说话人索引都能关注其对应的词级特征（不再需要 <pad>）。训练目标是整个会议的说话人索引。
Constrained Diaconis Augmentation (CDA): 针对训练数据不足问题，在原有 Diaconis 增强基础上约束说话人 embedding 的旋转角度，避免过度旋转导致性能下降。随机设置 scale 在 0-10 之间。

损失函数/训练策略¶

预训练阶段：DNC 和 ASR 分别独立训练，DNC 在仅含单说话人的片段上预训练
联合训练损失：\(\mathcal{L} = \mathcal{L}_{\text{DNC}} + \mathcal{L}_{\text{ASR}}\)，两个交叉熵损失之和
使用 Serialized Output Training (SOT) 处理重叠语音
AMI 数据使用 First Speaker Segmentation (FSS) 方法生成单说话人预训练数据

实验关键数据¶

主实验¶

合成数据结果 (cpWER %):

模型	WER	cpWER
Parallel	3.5	13.4
DNCASR (S1)	3.5	9.5
DNCASR (S2)	3.5	8.7

AMI-MDM cpWER 结果 (Dev/Eval %):

模型	cpWER	cpWER-Multi
Cascaded	35.2/33.0	46.0/46.1
Parallel	34.8/34.6	49.8/49.2
DNCASR (S1)	33.2/34.7	47.3/49.5
DNCASR (S2)	31.3/32.1	43.4/44.8
DNCASR (S2)+CDA	30.7/31.5	42.5/44.1

消融实验¶

Oracle 词序列下的 AMI Eval 结果 (%):

模型	DER	cpWER-All	cpWER-Single	cpWER-Multi
DNCASR (S1)	6.7	19.3	5.6	33.3
DNCASR (S2)	6.5	17.8	6.5	28.5
DNCASR (S2)+CDA	6.3	17.4	6.3	28.3

关键发现¶

DNCASR (S2)+CDA 相比 Parallel 系统在 AMI Dev/Eval 上分别取得 11.8% 和 9.0% 的相对 cpWER 降低
多说话人段 cpWER-Multi 降低更显著：Dev 14.7%，Eval 10.4%，说明改进主要来自重叠语音处理
合成数据实验中 Stage 2 相比 Parallel 系统 cpWER 相对降低 35.1%
Oracle 实验证明单说话人段 Stage 2 反而略差于 Stage 1，改进集中在多说话人段（15.0% 相对降低）
Wilcoxon 检验 p-value < 1e-6，34 个会议中 31 个改善，统计显著性强

亮点与洞察¶

信息流设计精巧: Link Cross Attention 的 mask 机制自然地将 ASR 词级特征与 DNC 说话人索引对齐，解决了并行系统中的对齐漏洞
两阶段训练渐进设计: Stage 1 处理当前段（带 <pad>），Stage 2 处理全会议，逐步扩大 DNC 的感知范围
不需要非神经聚类: 完全端到端，不依赖谱聚类等传统方法

局限性/可改进方向¶

仍依赖独立的说话人 embedding 提取模块（ECAPA-TDNN）和独立的 VAD，未实现真正全端到端
仅在 AMI 数据集上验证，未测试其他多说话人数据集
主实验使用较小的 WavLM-base-plus，附录显示换用 WavLM-large 可进一步提升 10% 以上
训练数据量有限（AMI 仅 100 小时），未与使用大规模监督数据的系统比较

评分¶

新颖性: ⭐⭐⭐⭐ — Link Cross Attention 设计新颖且有效
实验充分度: ⭐⭐⭐⭐ — 合成+真实数据，Oracle/非 Oracle，统计检验齐全
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示详尽
价值: ⭐⭐⭐⭐ — 对多说话人会议转录领域有实质推动