Efficient Training for Cross-lingual Speech Language Models¶

会议: ACL 2026
arXiv: 2604.11096
代码: https://github.com/ictnlp/CSLM
领域: 多语言/翻译 / 音频语音
关键词: 跨语言语音LLM、离散语音token、模态对齐、链式模态生成、数据高效训练

一句话总结¶

本文提出CSLM，一种高效训练跨语言语音LLM的方法，通过新颖的对齐策略实现跨模态和跨语言对齐，并引入语音-文本交织链式模态生成来提升质量和降低延迟，无需大规模语音数据即可扩展到新语言。

研究背景与动机¶

领域现状：语音LLM正在兴起以实现更自然的人机交互，但构建有效的端到端语音LLM仍面临挑战。现有方法包括：级联ASR+LLM+TTS（存在误差累积和高延迟）、编码器+LLM的模块化方法（语音生成能力弱）、基于离散语音token的统一建模（如SpeechGPT、GLM-4-Voice）。

现有痛点：(1) 语音数据相对文本极度稀缺，尤其对某些语言；(2) 现有统一建模方法（如GLM-4-Voice、Moshi）需要海量数据训练；(3) 将语音LLM扩展到更多语言面临数据稀缺和训练困难的双重挑战；(4) 现有链式模态生成（TQ→full TA→full SA）的延迟高。

核心矛盾：构建多语言多模态的统一表示通常需要大量数据，但语音数据在许多语言中严重不足。如何用有限数据同时实现跨语言和跨模态对齐是核心挑战。

本文目标：设计一种数据高效的训练方法，用有限语音数据同时实现跨模态和跨语言对齐，并具备良好的语言扩展性。

切入角度：利用文本模态作为"桥梁"来实现跨语言对齐——在单一语言内通过ASR/TTS数据做语音-文本跨模态对齐，跨语言通过机器翻译数据（文本-文本）做对齐。这样就不需要跨语言的语音-语音对齐数据。

核心 idea：设计"语音-文本交织链式模态"生成方式——模型交替生成短文本块和对应语音块（TQ→TA→SA→TA→SA...），比全量链式模态（TQ→full TA→full SA）具有更细粒度的模态对齐和更低的延迟。

方法详解¶

整体框架¶

CSLM由三个组件组成：(1) CosyVoice语音分词器（4096词汇表，25Hz）将语音转为离散token；(2) 语音-文本联合LLM（合并语音和文本词汇表）；(3) 语音解码器（流匹配模型+HiFi-GAN声码器）。训练采用两阶段范式：持续预训练和监督微调。

关键设计¶

跨模态+跨语言对齐策略:
- 功能：用有限数据同时实现语音-文本对齐和跨语言对齐。
- 核心思路：在单语内，通过ASR数据（语音→文本）和TTS数据（文本→语音）实现跨模态对齐。跨语言通过机器翻译数据（中↔英文本）实现对齐。文本模态作为桥梁——两种语言各自的语音与文本对齐后，通过文本间的翻译对齐实现间接的跨语言语音对齐。还使用单语指令数据防止文本能力退化。
- 设计动机：直接获取跨语言的语音-语音配对数据非常困难，但ASR/TTS配对数据和翻译数据相对容易获取。通过文本桥接避免了对跨语言语音数据的依赖。
语音-文本交织链式模态生成:
- 功能：在微调阶段实现更细粒度的模态对齐，同时降低推理延迟。
- 核心思路：将原始链式模态（TQ→full TA→full SA）改为交织式：模型先生成一小块文本回复，立即生成对应的语音回复，然后循环直到完成。即 TQ→TA→SA→TA→SA...。使用CTC对齐器从已有的语音-文本对中构建交织数据——通过CTC动态规划找到最优对齐路径 \(\pi^* = \arg\max_\pi \prod_t P(\pi_t|\mathbf{h}_t)\)，获取token级别时间边界，然后按chunk大小（7个词）在标点处切分。
- 设计动机：全量链式模态要等完整文本生成后才开始语音生成，延迟高。交织式生成实现了生成和播放的时间重叠——前一块语音播放时，模型已在生成后续内容。chunk级别的文本-语音交织比word级别误差更小。
语言扩展性设计:
- 功能：使训练方法容易扩展到新语言，在数据量和训练难度方面都具有可扩展性。
- 核心思路：只要有目标语言的(1)语音-文本配对数据（用于模态对齐）和(2)翻译数据（用于语言对齐），就可以将新语言集成到CSLM的训练中。离散语音token与语言无关，CosyVoice分词器本身支持多语言。
- 设计动机：数据需求最小化——不需要目标语言的大规模单语语音数据或跨语言语音配对数据，只需ASR/TTS配对和翻译数据。这使得扩展到低资源语言成为可能。

损失函数 / 训练策略¶

两阶段训练：(1) 持续预训练——在已经过指令微调的LLM基础上，合并语音词汇表，使用ASR/TTS/MT/单语指令数据混合训练得到CSLM-base；(2) 监督微调——在文本指令和语音对话数据上训练得到CSLM-SFT，使用交织链式模态格式。连续重复的语音token在输入LLM前合并以提高效率。

实验关键数据¶

主实验¶

任务	模型	英文	中文
ASR (WER↓)	Whisper-large-v3	2.5	9.3
ASR	GLM-4-Voice	2.8	2.5
ASR	CSLM-SFT	9.8	9.0
TTS (WER↓)	CosyVoice-SFT	3.4	—
TTS	GLM-4-Voice	4.7	—
TTS	CSLM-SFT	3.8	—
TTS (LibriTTS)	CSLM-SFT	2.9	—

消融实验¶

配置	效果	说明
全量链式模态	延迟高	TQ→full TA→full SA
交织链式模态	延迟低、质量更好	TQ→TA→SA→TA→SA...
w/o 跨语言对齐	跨语言任务差	缺乏翻译数据桥接
w/o 模态对齐	语音质量差	缺乏ASR/TTS训练

关键发现¶

CSLM在TTS质量上接近甚至超越专用TTS系统（CosyVoice），同时具备对话和跨语言能力
交织链式模态显著降低延迟——前一块音频播放时模型已在生成后续内容
使用远少于GLM-4-Voice的语音数据（后者使用海量数据），CSLM仍达到可比的性能
CTC对齐器构建的chunk级交织数据比word级交织更稳定
ASR性能不如专用ASR模型（Whisper），但对于对话场景足够用

亮点与洞察¶

文本作为跨语言桥梁：巧妙地利用文本模态的丰富资源来桥接不同语言的语音，避免了对跨语言语音配对数据的依赖。这个思路对所有多语言多模态系统都有借鉴意义。
交织链式模态的延迟优化：通过交替生成文本和语音实现生成-播放重叠，是一个实用且优雅的延迟优化方案。
CTC对齐器构建训练数据：用现有ASR模型的CTC模块获取精确的语音-文本对齐，自动构建交织训练数据，避免了手工对齐。

局限与展望¶

ASR性能显著弱于专用Whisper模型，说明统一建模在理解任务上仍有差距
仅验证了中英双语，未测试更多语言的扩展效果
语音分词器（CosyVoice）的性能直接影响整个系统，更换分词器可能带来提升
交织式生成的chunk大小（7个词）是手动选择的，可探索自适应chunk划分

评分¶

新颖性: ⭐⭐⭐⭐ 交织链式模态和文本桥接对齐策略是新颖且实用的设计
实验充分度: ⭐⭐⭐ 覆盖多个任务但仅双语、数据规模对比不够详细
写作质量: ⭐⭐⭐⭐ 框架清晰，对齐策略的可视化有助理解
价值: ⭐⭐⭐⭐ 为低资源语言的语音LLM提供了可行的训练路径