跳转至

Efficient Training for Cross-lingual Speech Language Models

会议: ACL 2026
arXiv: 2604.11096
代码: https://github.com/ictnlp/CSLM
领域: 多语言/翻译 / 音频语音
关键词: 跨语言语音LLM、离散语音token、模态对齐、链式模态生成、数据高效训练

一句话总结

本文提出CSLM,一种高效训练跨语言语音LLM的方法,通过新颖的对齐策略实现跨模态和跨语言对齐,并引入语音-文本交织链式模态生成来提升质量和降低延迟,无需大规模语音数据即可扩展到新语言。

研究背景与动机

领域现状:语音LLM正在兴起以实现更自然的人机交互,但构建有效的端到端语音LLM仍面临挑战。现有方法包括:级联ASR+LLM+TTS(存在误差累积和高延迟)、编码器+LLM的模块化方法(语音生成能力弱)、基于离散语音token的统一建模(如SpeechGPT、GLM-4-Voice)。

现有痛点:(1) 语音数据相对文本极度稀缺,尤其对某些语言;(2) 现有统一建模方法(如GLM-4-Voice、Moshi)需要海量数据训练;(3) 将语音LLM扩展到更多语言面临数据稀缺和训练困难的双重挑战;(4) 现有链式模态生成(TQ→full TA→full SA)的延迟高。

核心矛盾:构建多语言多模态的统一表示通常需要大量数据,但语音数据在许多语言中严重不足。如何用有限数据同时实现跨语言和跨模态对齐是核心挑战。

本文目标:设计一种数据高效的训练方法,用有限语音数据同时实现跨模态和跨语言对齐,并具备良好的语言扩展性。

切入角度:利用文本模态作为"桥梁"来实现跨语言对齐——在单一语言内通过ASR/TTS数据做语音-文本跨模态对齐,跨语言通过机器翻译数据(文本-文本)做对齐。这样就不需要跨语言的语音-语音对齐数据。

核心 idea:设计"语音-文本交织链式模态"生成方式——模型交替生成短文本块和对应语音块(TQ→TA→SA→TA→SA...),比全量链式模态(TQ→full TA→full SA)具有更细粒度的模态对齐和更低的延迟。

方法详解

整体框架

CSLM由三个组件组成:(1) CosyVoice语音分词器(4096词汇表,25Hz)将语音转为离散token;(2) 语音-文本联合LLM(合并语音和文本词汇表);(3) 语音解码器(流匹配模型+HiFi-GAN声码器)。训练采用两阶段范式:持续预训练和监督微调。

关键设计

  1. 跨模态+跨语言对齐策略:

    • 功能:用有限数据同时实现语音-文本对齐和跨语言对齐。
    • 核心思路:在单语内,通过ASR数据(语音→文本)和TTS数据(文本→语音)实现跨模态对齐。跨语言通过机器翻译数据(中↔英文本)实现对齐。文本模态作为桥梁——两种语言各自的语音与文本对齐后,通过文本间的翻译对齐实现间接的跨语言语音对齐。还使用单语指令数据防止文本能力退化。
    • 设计动机:直接获取跨语言的语音-语音配对数据非常困难,但ASR/TTS配对数据和翻译数据相对容易获取。通过文本桥接避免了对跨语言语音数据的依赖。
  2. 语音-文本交织链式模态生成:

    • 功能:在微调阶段实现更细粒度的模态对齐,同时降低推理延迟。
    • 核心思路:将原始链式模态(TQ→full TA→full SA)改为交织式:模型先生成一小块文本回复,立即生成对应的语音回复,然后循环直到完成。即 TQ→TA→SA→TA→SA...。使用CTC对齐器从已有的语音-文本对中构建交织数据——通过CTC动态规划找到最优对齐路径 \(\pi^* = \arg\max_\pi \prod_t P(\pi_t|\mathbf{h}_t)\),获取token级别时间边界,然后按chunk大小(7个词)在标点处切分。
    • 设计动机:全量链式模态要等完整文本生成后才开始语音生成,延迟高。交织式生成实现了生成和播放的时间重叠——前一块语音播放时,模型已在生成后续内容。chunk级别的文本-语音交织比word级别误差更小。
  3. 语言扩展性设计:

    • 功能:使训练方法容易扩展到新语言,在数据量和训练难度方面都具有可扩展性。
    • 核心思路:只要有目标语言的(1)语音-文本配对数据(用于模态对齐)和(2)翻译数据(用于语言对齐),就可以将新语言集成到CSLM的训练中。离散语音token与语言无关,CosyVoice分词器本身支持多语言。
    • 设计动机:数据需求最小化——不需要目标语言的大规模单语语音数据或跨语言语音配对数据,只需ASR/TTS配对和翻译数据。这使得扩展到低资源语言成为可能。

损失函数 / 训练策略

两阶段训练:(1) 持续预训练——在已经过指令微调的LLM基础上,合并语音词汇表,使用ASR/TTS/MT/单语指令数据混合训练得到CSLM-base;(2) 监督微调——在文本指令和语音对话数据上训练得到CSLM-SFT,使用交织链式模态格式。连续重复的语音token在输入LLM前合并以提高效率。

实验关键数据

主实验

任务 模型 英文 中文
ASR (WER↓) Whisper-large-v3 2.5 9.3
ASR GLM-4-Voice 2.8 2.5
ASR CSLM-SFT 9.8 9.0
TTS (WER↓) CosyVoice-SFT 3.4
TTS GLM-4-Voice 4.7
TTS CSLM-SFT 3.8
TTS (LibriTTS) CSLM-SFT 2.9

消融实验

配置 效果 说明
全量链式模态 延迟高 TQ→full TA→full SA
交织链式模态 延迟低、质量更好 TQ→TA→SA→TA→SA...
w/o 跨语言对齐 跨语言任务差 缺乏翻译数据桥接
w/o 模态对齐 语音质量差 缺乏ASR/TTS训练

关键发现

  • CSLM在TTS质量上接近甚至超越专用TTS系统(CosyVoice),同时具备对话和跨语言能力
  • 交织链式模态显著降低延迟——前一块音频播放时模型已在生成后续内容
  • 使用远少于GLM-4-Voice的语音数据(后者使用海量数据),CSLM仍达到可比的性能
  • CTC对齐器构建的chunk级交织数据比word级交织更稳定
  • ASR性能不如专用ASR模型(Whisper),但对于对话场景足够用

亮点与洞察

  • 文本作为跨语言桥梁:巧妙地利用文本模态的丰富资源来桥接不同语言的语音,避免了对跨语言语音配对数据的依赖。这个思路对所有多语言多模态系统都有借鉴意义。
  • 交织链式模态的延迟优化:通过交替生成文本和语音实现生成-播放重叠,是一个实用且优雅的延迟优化方案。
  • CTC对齐器构建训练数据:用现有ASR模型的CTC模块获取精确的语音-文本对齐,自动构建交织训练数据,避免了手工对齐。

局限与展望

  • ASR性能显著弱于专用Whisper模型,说明统一建模在理解任务上仍有差距
  • 仅验证了中英双语,未测试更多语言的扩展效果
  • 语音分词器(CosyVoice)的性能直接影响整个系统,更换分词器可能带来提升
  • 交织式生成的chunk大小(7个词)是手动选择的,可探索自适应chunk划分

相关工作与启发

  • vs GLM-4-Voice:GLM-4-Voice是首个中英双语语音LLM但需海量数据。CSLM用远更少的数据达到可比效果
  • vs SPIRIT LM / Moshi:需要大量语音数据的统一建模方法。CSLM的高效对齐策略大幅降低数据需求
  • vs LLaMA-Omni:模块化方法(编码器+LLM+TTS),语音质量和多样性受限。CSLM通过离散token统一建模提供更自然的语音

评分

  • 新颖性: ⭐⭐⭐⭐ 交织链式模态和文本桥接对齐策略是新颖且实用的设计
  • 实验充分度: ⭐⭐⭐ 覆盖多个任务但仅双语、数据规模对比不够详细
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,对齐策略的可视化有助理解
  • 价值: ⭐⭐⭐⭐ 为低资源语言的语音LLM提供了可行的训练路径

相关论文