Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations¶

会议: ICCV 2025
arXiv: 2503.06273
代码: 有（论文中提到 code and models are available online）
领域: Audio & Speech
关键词: 零样本语音识别, 视听语音识别, 罗马化文本, 大语言模型, 多语言

一句话总结¶

提出 Zero-AVSR 框架，通过将语音转写为语言无关的罗马化文本（Roman text），再利用 LLM 将罗马文本转换为目标语言文字，实现无需目标语言语音数据的零样本视听语音识别，并构建了覆盖 82 种语言、2916 小时的 MARC 数据集。

研究背景与动机¶

视听语音识别（AVSR）结合音频和唇部运动信息来增强语音理解，特别是在噪声环境下效果显著。然而，现有 AVSR 研究主要集中在英语上，多语言 AVSR 数据集仅覆盖 9 种语言。为每种语言获取足够的带标注视听数据非常困难，这严重限制了 AVSR 向更多语言的扩展。

核心问题：如何在不使用目标语言语音数据的情况下进行语音识别？

关键洞察：不同语言在音素层面共享发音特征，可以通过罗马化（romanization）将所有语言统一到一个语言无关的表示空间中。同时，预训练 LLM 已经具备将罗马文本转换为各语言文字的能力。

方法详解¶

整体框架¶

Zero-AVSR 由两个核心组件组成：(1) AV-Romanizer：将多语言视听语音输入预测为语言无关的罗马化文本；(2) LLM 解码器：将罗马化文本转换为目标语言的特定文字（graphemes）。框架分为 Cascaded 和 Unified 两种形式。

关键设计¶

MARC 数据集: 整合 LRS3、MuAViC、VoxCeleb2、AVSpeech 四个数据集，构建覆盖 82 种语言、2916 小时视听数据的多语言罗马化语料库。通过 GPT-4o-mini 进行罗马化标注（实验证明其在 romanization 和 de-romanization 重建测试中效果最优）。对无标签数据集使用预训练语言识别和 ASR 模型获取语言 ID 和转写。
AV-Romanizer（视听语音罗马化器）: 基于 AV-HuBERT 架构，包含音频编码器 \(\mathcal{F}_a\)（线性层）、视觉编码器 \(\mathcal{F}_v\)（ResNet-18 + 3D 卷积）、Transformer 编码器 \(\mathcal{B}\)（24 层）和线性分类头。将音频特征 \(f_a\) 和视觉特征 \(f_v\) 沿通道维度拼接后通过线性层降维，输入 Transformer 编码器得到融合特征 \(f_{av} = \mathcal{B}((f_a \oplus f_v)W)\)。使用 CTC 损失训练，预测罗马化文本。
Cascaded Zero-AVSR: 级联 AV-Romanizer 和预训练 LLM（如 GPT-4o-mini），不需要微调 LLM。AV-Romanizer 将视听语音转为罗马文本，然后通过指令引导 LLM 将罗马文本转为目标语言文字。优势是可以使用任意 LLM（包括 API 形式）。
Zero-AVSR（统一模型）: 将 AV-Romanizer 编码的视听特征直接嵌入 LLM（Llama3.2-3B），通过多任务训练实现端到端的零样本识别。
- Task 1（对齐）: 使用长度压缩器（1D 卷积，kernel=2, stride=2）和 adapter 将视听特征映射到 LLM 嵌入空间，在已见语言上用语言建模目标训练。冻结 AV-Romanizer 和 LLM 原始权重，仅训练 LoRA 权重、压缩器和 adapter。
- Task 2（学习去罗马化）: 纯文本任务，训练 LLM 将罗马文本转为目标语言文字，覆盖已见和未见语言，防止 LLM 遗忘多语言能力。仅训练 LoRA 权重。

损失函数 / 训练策略¶

AV-Romanizer 使用 CTC 损失训练
三阶段学习率调度：10K warmup、40K hold、50K decay，峰值学习率 1e-4
训练中对音频随机添加 MUSAN 噪声（0 dB SNR）
Zero-AVSR LLM 阶段使用 cosine 调度器（0.5K warmup + 29.5K decay），使用 QLoRA 微调
推理时使用 beam search（width=2, temperature=0.3）

实验关键数据¶

主实验¶

方法	模态	训练时长	支持语言数	Ara	Deu	Ell	Spa	Fra	Ita	Por	Rus	Eng	Avg(含Eng)
AV-HuBERT	AVSR	1759h	9	89.4	52.0	46.2	17.4	20.3	20.8	22.1	44.7	1.7	35.0
XLAVS-R 2B	AVSR	437Kh	9	79.3	44.4	19.0	9.1	12.3	10.6	11.2	25.0	1.7	23.6
MMS Zero-shot	ASR	476Kh	1078+	84.9	31.5	47.9	17.7	33.6	19.0	35.5	42.8	35.7	38.9
Cascaded Zero-AVSR	AVSR	2916h	82+	82.1	29.3	47.2	16.3	28.9	21.6	20.2	42.9	2.9	30.2
Zero-AVSR	AVSR	2916h	82+	81.4	27.8	38.4	13.1	14.3	15.9	15.4	32.6	1.5	25.2

消融实验¶

MARC 数据集有效性（Cascaded Zero-AVSR，目标未见语言：Rus）:

训练数据	训练语言数	训练时长	零样本CER↓	平均CER↓
MuAViC	8	745h	62.3	48.3
+MARC (8语言)	8	1944h	61.0	28.3
+MARC (40语言)	40	2418h	49.5	25.1
+MARC (81语言)	81	2793h	40.0	21.9

不同 LLM 对 Cascaded Zero-AVSR 的影响:

LLM	平均CER↓
Llama3.2-3B	35.7
Mistral-7B	29.6
Llama3.1-8B	27.3
Llama3.1-70B	21.3
GPT-4o-mini	19.5

关键发现¶

Zero-AVSR 在仅使用 2916h 视听数据的情况下，平均 WER 达到 25.2%，与使用 436K 小时音频数据的 XLAVS-R 2B 模型（23.6%）相当
增加语言多样性（8→81 种语言）显著提升零样本性能，Rus 的零样本 CER 从 62.3% 降至 40.0%
同语族语言的数据对零样本性能帮助更大（验证了语言学先验）
LLM 规模越大，Cascaded 方案的解码效果越好

亮点与洞察¶

罗马化作为语言无关表示的巧妙设计：相比音素（phoneme），罗马文本更简单且 LLM 天然具备转换能力
级联方案的实用性：不需要微调 LLM，可直接使用 API 形式的闭源模型
数据量和语言多样性的 scaling 效应：更多语言和数据能显著提升零样本能力
LLM 作为通用去罗马化器：消除了为每种语言训练独立语言模型的需求

局限与展望¶

零样本性能与监督方法仍有差距（特别是阿拉伯语等书写系统差异大的语言）
Unified Zero-AVSR 使用较小的 Llama3.2-3B，更大模型可能进一步提升
罗马化本身不是完全可逆的转换，存在信息损失
82 种语言仍未覆盖全球所有语言，特别是低资源语言

评分¶

新颖性: ⭐⭐⭐⭐ 首个零样本 AVSR 框架，罗马化+LLM 的设计思路新颖
实验充分度: ⭐⭐⭐⭐⭐ 12个消融实验、8种语言的全面评估、多个LLM对比
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 82种语言的多语言视听识别，数据集和方法均有贡献