MockConf: A Student Interpretation Dataset: Analysis, Word- and Span-level Alignment and Baselines¶

会议: ACL 2025
arXiv: 2506.04848
代码: 有 (GitHub) + InterAlign 标注工具
领域: NLP / 语音翻译 / 同声传译
关键词: 同声传译, 平行语料, 对齐标注, span对齐, word对齐

一句话总结¶

本文构建了 MockConf——一个以捷克语为中心的学生同声传译数据集（7 小时，5 种欧洲语言），提供人工标注的 span 级和 word 级对齐，同时发布了专用标注工具 InterAlign，并建立了自动对齐的基线和评估指标体系。

研究背景与动机¶

同声传译是一种极具挑战性的多语言任务：传译员在说话人尚未结束句子时就需要以极短的延迟将语音翻译成另一种语言。为了理解、分析和自动化这一复杂过程，需要专门的平行语音语料库及相应的对齐标注工具。

然而，现有的文本翻译平行语料和对齐算法难以满足同声传译的需求，原因在于： - 同声传译不遵循传统的 1-1 句对齐 - 传译员会进行压缩、简化、泛化等操作，产生特殊类型的偏差 - 语音转录包含犹豫、错误起头等不流畅现象 - 需要处理远距离的语音片段交互

已有的传译语料（如欧洲议会的 EUROPARI）聚焦于专业译员，而学生传译员的数据具有独特的教育和研究价值。本文的 MockConf 数据集来自大学课程中的 Mock Conference（模拟会议），填补了这一空白。

方法详解¶

整体框架¶

数据构建流程：录音收集 → 自动转录（WhisperX） → 人工修订 → span 和 word 级对齐标注（使用 InterAlign） → 数据分析 → 自动对齐基线。

关键设计¶

数据收集与转录：
- 来源：大学口译课程的模拟会议，学生扮演角色发表演讲，其他学生进行同声传译
- 语言：捷克语（cs）、英语（en）、法语（fr）、德语（de）、西班牙语（es），始终从/向捷克语传译
- 包含直接传译和接力传译（relay interpreting，通过捷克语中转）
- 自动转录使用 WhisperX，之后由母语人士手动修订
- 总时长约 7 小时，分为 dev（2h）和 test（5h）
InterAlign 标注工具：
- 专为长文本同声传译对齐设计的 Web 端标注工具
- 支持 span 级和 word 级并行标注
- 解决了现有对齐工具无法处理同声传译特殊需求的问题（非句对齐、长距离交互等）
Span 对齐标注体系（7 种标签）：

类别	子类别	标签
翻译	-	TRAN
改写	释义	PARA
改写	概括	SUM
改写	泛化	GEN
错误	事实添加	ADDF
错误	无信息添加	ADDU
错误	替换	REPL

Word 对齐标注：在每个 span 对齐对内部标注 word 对齐，分为 sure（上下文无关的翻译对应）和 possible（需要上下文或语法依赖才能理解的对应）。
自动对齐基线系统（三步流程）：
- 粗对齐：使用 BERTAlign 获取高精度的 n-m 句对齐
- 子分割：使用 SimAlign（itermax + XLM-R）计算 word 对齐，在标点对齐处切分 span
- 标签分类：基于 LaBSE 相似度分数和 span 长度的简单分类器

评估指标体系¶

分割质量：Precision / Recall / F1 + P_k + WindowDiff
Span 对齐：Exact match（严格匹配）+ Relaxed match（word 级展开后的 P/R/F1）
Word 对齐：AER + F1
标签正确性：token 级 accuracy + F1

实验关键数据¶

数据集统计¶

集合	录音数	时长	源端 token	目标端 token
dev	10	1:59:31	13,545	12,372
test	29	5:01:16	37,719	30,413

Span 标签分布（token 占比）¶

标签	源端 (%)	目标端 (%)
TRAN	42.82	52.16
PARA	17.91	22.08
SUM	11.89	9.07
ADDF	13.28	4.02
GEN	4.68	4.57
ADDU	5.45	3.91
REPL	3.96	4.18

标注者一致性（Cohen's Kappa）¶

方面	源端	目标端
分割	0.56	0.57
标签	0.41	0.25

自动对齐基线（测试集）¶

系统	Seg F1↑	Relaxed F1↑	Exact w/o label↑	AER↓	Label acc↑
Random	~16.6	~0.03	0.00	0.70	~37
BA	~53	~0.58	~12.5	0.33	~62
BA+sub	~60	~0.61	~15	0.37	~62
BA+sub+lab	~60	~0.61	~15	0.37	~60

关键发现¶

标注一致性反映任务难度：分割的 Kappa 为 moderate（0.56-0.57），标签的 Kappa 更低（0.25-0.41），说明同声传译对齐标注本身具有高度主观性和模糊性。
翻译是占比最大的标签（约 50%），其次是释义（约 20%），符合直觉。
13.3% 的源端 token 存在事实遗漏（ADDF）：这在传译教育中具有重要参考价值。
传译产出短于原文：直接传译的长度比为 77.5%，接力传译为 97.43%（因第一个译员已做简化）。
概括和泛化的长度压缩显著：SUM 的目标/源长度比约 0.6，GEN 约 0.9，翻译和释义接近 1.0。
标注者风格差异大：Annotator 4 标注的 span 长度几乎是其他人的两倍。
自动对齐基线有明显提升空间：BERTAlign + sub-segmentation 在 Relaxed F1 上达到 ~0.61，Exact match 仅 ~15%。

亮点与洞察¶

多用途数据集：可用于语言学分析、传译教育监控、MT 幻觉检测、MQM 质量评估、自动同声传译系统评测。
标注体系继承自传译学：7 种 span 标签直接映射到 Barik (1994) 的经典传译偏差分类。
InterAlign 工具发布：专门为长文本传译对齐设计，支持 span + word 双层标注。
接力传译与多轨传译的分析：发现接力传译更容易（已预简化）、多轨传译的长度差异平均仅 2%。
详尽的评估指标设计：为传译对齐任务定义了从分割到标签的完整指标体系。

局限与展望¶

数据来自学生传译员，质量和策略可能与专业译员不同
标注者一致性较低，跨标注者的变异性影响数据可靠性
dev 集仅包含 cs→xx 方向且不成比例代表所有标注者
简单基线的标签分类器仅在 devset 上训练（80/20 split），缺乏充分的训练数据
目前仅以捷克语为中心，语言多样性有限
没有 ASR 误差的影响分析（手动修订掩盖了 ASR 问题）

评分¶

新颖性: ⭐⭐⭐⭐ — 首个以捷克语为中心的学生传译数据集，附带专用标注工具和完整评估框架
实验充分度: ⭐⭐⭐ — 数据分析详尽，但自动对齐基线较简单，缺乏神经方法的探索
写作质量: ⭐⭐⭐⭐ — 数据描述丰富，示例恰当，标注流程透明
价值: ⭐⭐⭐⭐ — 对传译研究和教育具有直接应用价值，工具和数据的开放发布增加了影响力