Improving Language and Modality Transfer in Translation by Character-level Modeling¶

会议: ACL 2025
arXiv: 2505.24561
代码: 无
领域: 文本生成
关键词: character-level, multilingual translation, speech translation, SONAR, cross-modal transfer

一句话总结¶

提出基于字符级编码器 charSONAR 的跨语言跨模态翻译方法，通过 teacher-student 训练获得字符级文本编码器，再用轻量适配器连接 1000+ 语言的 CTC ASR 模型（MMS），在 75 语言文本翻译和 33 语言语音翻译上实现 SOTA，零资源低资源场景表现尤其突出。

领域现状：翻译模型已支持 200-400 种文本语言和 100 种语音语言，但仅覆盖全球 5% 的语言。扩展到长尾低资源语言面临数据稀缺挑战。
现有痛点：(1) 子词分词（subword）的跨语言迁移能力有限。(2) 语音翻译中 CTC 输出（字符级）与文本编码器（子词级）长度/内容不匹配，造成模态鸿沟。(3) 音素化方法有歧义且无法扩展到 1000+ 语言。
核心矛盾：如何在文本和语音两个模态之间、高资源和低资源语言之间实现最大化知识迁移？
本文要解决什么？ 用字符级建模统一文本和语音的表征输入空间，提升跨语言和跨模态迁移。
切入角度：基于 SONAR（多语言固定维嵌入空间）+ MMS（1000+ 语言 CTC ASR），字符级编码器天然与 CTC 输出对齐，消除了子词-字符长度不匹配问题。
核心 idea 一句话：字符级 SONAR 编码器 + 预训练 CTC→字符适配器 = 数据高效的跨语言跨模态翻译。

(1) Teacher-Student: SONAR(子词) → charSONAR(字符)，用插值 MSE 损失。(2) 适配器: MMS-CTC → charSONAR，用 MSE 损失。推理时用 SONAR decoder 从嵌入生成翻译。

charSONAR 训练:
仅保留 SONAR 词表中的单字符 token（256K→8K）。
三种 MSE 目标：重构（\(\text{MSE}(\mathbf{c}^x, \mathbf{e}^x)\)）、翻译（\(\text{MSE}(\mathbf{c}^x, \mathbf{e}^y)\)）、插值（\(\text{MSE}(\mathbf{c}^x, \frac{\mathbf{e}^x + \mathbf{e}^y}{2})\)）。
插值目标最优：语言对的平均 SONAR 嵌入比单语嵌入更适合跨语言空间。
加入 ASR 式增强（去大写/去标点/字符噪声），增强跨模态鲁棒性。
跨模态适配器:
预训练适配器：利用 MMS 的 CTC 分类层 + charSONAR 的 embedding 层，做 soft prediction（softmax → embedding lookup），参数仅~200K。
双适配器（Dual）：预训练适配器 + 随机初始化适配器，用门控加权组合，总参数 2.5M。
CTC 压缩：平均连续相同预测、去除 blank，将音频表征压缩到字符级长度。
零资源语音翻译:
charSONAR 冻结 + MMS 冻结，仅训练适配器。
训练数据仅需 ASR data（音频-转录对），无需平行语音翻译数据。

配置	xCOMET	xSIM++	说明
重构目标	0.929	7.4	基础
翻译目标	0.924	6.6	搜索好但翻译略差
插值目标	0.931	6.6	两者兼顾
+ 预训练初始化	0.934	6.4	更快收敛
低资源语言提升	最大	-	字符级在低资源场景优势明显
零资源语言泛化	优于子词	优于子词	字符共享增强迁移