Improving Language and Modality Transfer in Translation by Character-level Modeling¶
会议: ACL 2025
arXiv: 2505.24561
代码: 无
领域: 文本生成
关键词: character-level, multilingual translation, speech translation, SONAR, cross-modal transfer
一句话总结¶
提出基于字符级编码器 charSONAR 的跨语言跨模态翻译方法,通过 teacher-student 训练获得字符级文本编码器,再用轻量适配器连接 1000+ 语言的 CTC ASR 模型(MMS),在 75 语言文本翻译和 33 语言语音翻译上实现 SOTA,零资源低资源场景表现尤其突出。
研究背景与动机¶
- 领域现状:翻译模型已支持 200-400 种文本语言和 100 种语音语言,但仅覆盖全球 5% 的语言。扩展到长尾低资源语言面临数据稀缺挑战。
- 现有痛点:(1) 子词分词(subword)的跨语言迁移能力有限。(2) 语音翻译中 CTC 输出(字符级)与文本编码器(子词级)长度/内容不匹配,造成模态鸿沟。(3) 音素化方法有歧义且无法扩展到 1000+ 语言。
- 核心矛盾:如何在文本和语音两个模态之间、高资源和低资源语言之间实现最大化知识迁移?
- 本文要解决什么? 用字符级建模统一文本和语音的表征输入空间,提升跨语言和跨模态迁移。
- 切入角度:基于 SONAR(多语言固定维嵌入空间)+ MMS(1000+ 语言 CTC ASR),字符级编码器天然与 CTC 输出对齐,消除了子词-字符长度不匹配问题。
- 核心 idea 一句话:字符级 SONAR 编码器 + 预训练 CTC→字符适配器 = 数据高效的跨语言跨模态翻译。
方法详解¶
整体框架¶
(1) Teacher-Student: SONAR(子词) → charSONAR(字符),用插值 MSE 损失。(2) 适配器: MMS-CTC → charSONAR,用 MSE 损失。推理时用 SONAR decoder 从嵌入生成翻译。
关键设计¶
- charSONAR 训练:
- 仅保留 SONAR 词表中的单字符 token(256K→8K)。
- 三种 MSE 目标:重构(\(\text{MSE}(\mathbf{c}^x, \mathbf{e}^x)\))、翻译(\(\text{MSE}(\mathbf{c}^x, \mathbf{e}^y)\))、插值(\(\text{MSE}(\mathbf{c}^x, \frac{\mathbf{e}^x + \mathbf{e}^y}{2})\))。
- 插值目标最优:语言对的平均 SONAR 嵌入比单语嵌入更适合跨语言空间。
-
加入 ASR 式增强(去大写/去标点/字符噪声),增强跨模态鲁棒性。
-
跨模态适配器:
- 预训练适配器:利用 MMS 的 CTC 分类层 + charSONAR 的 embedding 层,做 soft prediction(softmax → embedding lookup),参数仅~200K。
- 双适配器(Dual):预训练适配器 + 随机初始化适配器,用门控加权组合,总参数 2.5M。
-
CTC 压缩:平均连续相同预测、去除 blank,将音频表征压缩到字符级长度。
-
零资源语音翻译:
- charSONAR 冻结 + MMS 冻结,仅训练适配器。
- 训练数据仅需 ASR data(音频-转录对),无需平行语音翻译数据。
实验关键数据¶
主实验¶
| 方法 | 文本翻译 (FLORES+ 75 语言) | 语音翻译 (FLEURS 33 语言) |
|---|---|---|
| SONAR (子词) | xCOMET: 0.925 | - |
| charSONAR | xCOMET: 0.934 | - |
| SEAMLESS (监督) | - | SOTA 基线 |
| Whisper cascade | - | 强基线 |
| charSONAR + MMS | 优于 SONAR | 新 SOTA |
消融实验¶
| 配置 | xCOMET | xSIM++ | 说明 |
|---|---|---|---|
| 重构目标 | 0.929 | 7.4 | 基础 |
| 翻译目标 | 0.924 | 6.6 | 搜索好但翻译略差 |
| 插值目标 | 0.931 | 6.6 | 两者兼顾 |
| + 预训练初始化 | 0.934 | 6.4 | 更快收敛 |
| 低资源语言提升 | 最大 | - | 字符级在低资源场景优势明显 |
| 零资源语言泛化 | 优于子词 | 优于子词 | 字符共享增强迁移 |
关键发现¶
- 字符级优于子词级:在 75 语言上整体更优,低资源和零资源场景优势尤其显著。
- 插值嵌入空间更优:语言对的"平均"SONAR 嵌入比单语嵌入更适合做跨语言锚点——低资源语言受益最大(与高资源语言平均后质量提升)。
- 极轻量适配器即可实现 SOTA 语音翻译:仅 2.5M 参数的适配器就超越了完全监督的 SEAMLESS 系统。
亮点与洞察¶
- 字符级统一两种模态的洞察深刻:CTC 输出天然是字符级的,文本编码器也用字符输入,消除了模态鸿沟——这比之前的音素共享或子词压缩方案更简洁。
- 固定维嵌入 bottleneck 的意外优势:SONAR 的均值池化生成固定维嵌入,使字符级序列长度增加不影响解码器计算。
- 适配器的"预训练初始化"设计:利用已有的 MMS CTC 层和 charSONAR embedding 层初始化,最大化利用预训练知识。
局限性 / 可改进方向¶
- 编码器端字符级化增加了序列长度(1.5-3x),编码成本更高。
- 仅测试了 X→Eng 方向的语音翻译,其他方向未验证。
- 字符级分词对中文/日文等字符语言效果可能不同(每个字符承载更多语义)。
相关工作与启发¶
- vs ZeroSwot: ZeroSwot 用 Wasserstein 距离对齐语音-文本表征;charSONAR 用简单 MSE + 字符级统一达到更好效果。
- vs ByT5 (字符级LM): ByT5 展示了字符级在噪声鲁棒性上的优势;charSONAR 将此推广到翻译和语音。
评分¶
- 新颖性: ⭐⭐⭐⭐ 字符级统一文本和语音翻译的方案简洁优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 75 语言文本 + 33 语言语音 + 消融充分
- 写作质量: ⭐⭐⭐⭐ 方法清晰,实验全面
- 价值: ⭐⭐⭐⭐⭐ 潜在支持 1000+ 语言的语音翻译,实际影响大