Different Speech Translation Models Encode and Translate Speaker Gender Differently¶

会议: ACL 2025
arXiv: 2506.02172
代码: https://github.com/hlt-mt/speech-translation-gender (有)
领域: 语音
关键词: 语音翻译, 性别编码, 可解释性, 探针分析, 翻译偏差

一句话总结¶

通过注意力探针分析不同架构的语音翻译模型如何编码说话人性别信息，发现传统编码器-解码器模型能较好保留性别信息，而新型 speech+MT 架构的适配器会显著擦除性别信息，导致翻译中出现更严重的阳性默认偏差。

领域现状: 语音表示学习研究表明，模型内部表示能捕获语音学和说话人相关特征（包括性别）。语音翻译（ST）领域正从传统编码器-解码器架构转向新型 speech+MT 架构——即通过适配器将预训练语音编码器接入机器翻译系统。
现有痛点: 当从"概念性别"语言（如英语）翻译到"语法性别"语言（如法语/意大利语/西班牙语）时，模型需要从上下文推断性别并正确施加语法曲变。例如 "I was born in..." → "Je suis né/née à..."。但现有系统普遍存在阳性默认倾向。
核心矛盾: ST 领域正在发生架构变革，但对于新旧架构如何编码和使用性别信息——以及这如何影响翻译中的性别偏差——知之甚少。
本文要解决什么: (1) 不同 ST 架构是否编码了说话人性别信息？(2) 架构差异如何影响翻译中的性别赋值？(3) 性别编码能力与翻译准确性之间是否存在关联？
切入角度: 使用探针方法（probing）——一种成熟的可解释性技术——训练分类器从模型隐状态预测说话人性别，然后分析性别编码能力与翻译准确性的关系。
核心idea一句话: 性别编码能力与翻译性别准确性高度相关，speech+MT 架构的适配器会擦除性别信息导致阳性默认偏差加剧。

对三类 ST 模型进行探针分析：传统编码器-解码器（enc-dec）、SeamlessM4T（speech+MT）、ZeroSwot（speech+MT）。在三个翻译方向（En→Fr/It/Es）上分析性别编码与翻译准确性的关系。

模块: 注意力探针（Attention-based Probe）

做什么: 从模型隐状态序列中提取性别信息进行二分类
核心思路: 受 Q-Former 启发，使用单个可学习查询向量 \(\mathbf{q} \in \mathbb{R}^d\) 与隐状态序列 \(\mathbf{X} = \langle \mathbf{x}_1, ..., \mathbf{x}_L \rangle\) 做注意力运算。隐状态通过可学习权重矩阵 \(\mathbf{W}_K, \mathbf{W}_V \in \mathbb{R}^{d \times d}\) 投影为 Key 和 Value。输出 \(\mathbf{o} \in \mathbb{R}^d\) 经线性层做分类。注意力权重 \(\mathbf{a} \in \mathbb{R}^L\) 指示哪些位置对性别编码贡献最大
设计动机:
避免 mean/max pooling 可能掩盖位置变化的问题
避免固定位置探针不支持变长序列的限制
保持架构简单（符合探针设计原则），同时比线性模型更具表达力
模拟 ST 解码器通过交叉注意力机制访问编码器状态的方式

探测位置: - enc-dec: 编码器输出 - speech+MT: 适配器前（pre-ad）和适配器后（post-ad）分别探测

性别探针 F1 分数（test-speaker 平均）:

模型	探测位置	en→es	en→fr	en→it	平均
Seamless	post-ad	51.72	54.51	-	53.95
Seamless	pre-ad	67.32	67.52	-	68.47
ZeroSwot	post-ad	61.80	61.62	-	61.36
ZeroSwot	pre-ad	90.25	90.02	-	89.61
enc-dec	encoder	93.14	94.59	-	94.64

翻译性别准确率（test-speaker）:

模型	She Acc	He Acc	All Acc	COMET
Seamless	14.33	90.25	53.35	80.36
ZeroSwot	50.69	74.90	62.80	83.94
enc-dec	78.53	92.25	85.57	74.77

适配器对性别信息的影响（F1 下降幅度）:

模型	pre-ad F1	post-ad F1	下降
Seamless	68.47	53.95	~21%
ZeroSwot	89.61	61.36	~32%

性别编码与翻译准确率的相关性：\(R^2 = 0.99\)，\(p < 0.01\)。

传统 enc-dec 模型性别编码能力最强（F1 > 94），而 speech+MT 模型在适配器后大幅下降（Seamless post-ad 仅 53.95）
适配器是关键瓶颈: ZeroSwot 适配器前 pre-ad F1 = 89.61，适配器后 post-ad 骤降至 61.36，损失约 32%
性别编码与翻译准确率高度相关（\(R^2=0.99\)），编码越强翻译越准确
阳性默认偏差: Seamless 女性准确率最低仅 12.09%（en→es），男性却高达 90.55%，差距悬殊
即使 enc-dec 模型也存在轻微阳性偏差：女性平均 78.53 vs 男性 92.25
ST 模型主要在序列早期位置编码性别信息