MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens¶

会议: ACL 2025
arXiv: 2503.11315
代码: https://github.com/JeongHun0716/MMS-LLaMA (有)
领域: 语音
关键词: 音视频语音识别, LLM语音识别, Token压缩, Q-Former, 语速预测

一句话总结¶

提出 MMS-LLaMA，通过早期音视频融合、动态查询分配的 AV Q-Former 和语速预测器三个模块，将多模态语音 token 压缩至每秒仅 3.5 个，在 LRS3 上以 0.72% WER 达到 SOTA 的同时减少 86% token 用量和 35.7% FLOPs。

研究背景与动机¶

领域现状：音视频语音识别（AVSR）通过结合音频和唇部运动的视觉信息，在嘈杂环境下实现鲁棒语音识别。近期基于 LLM 的 AVSR 系统（如 LLaMA-AVSR）利用 LLM 的上下文建模能力取得了出色效果，WER 已低至 0.77%。
现有痛点：基于 LLM 的 AVSR 系统计算代价极高——多模态语音 token 的时间分辨率远高于文本 token，导致 LLM 的自注意力机制需要处理大量 token。如 LLaMA-AVSR 每秒产生 25 个多模态 token，GPU 显存占用 18.2GB，FLOPs 达 2.24T。
核心矛盾：语音信号的高时间分辨率是保证识别精度的基础，但过多 token 导致 LLM 计算负担沉重。如何在压缩 token 数量的同时不丢失语言信息？
本文要解决什么：设计高效的多模态语音 LLM 框架，以最少的 token 数量保留足够的语言内容，在不牺牲精度的前提下大幅降低计算成本。
切入角度：三步压缩策略——(1) 早期融合将音视频序列长度减半；(2) AV Q-Former 根据输入时长动态分配查询数量进一步压缩；(3) 语速预测器根据语速调整 token 分配，对快速语音分配更多 token。
核心idea一句话：通过动态查询分配和语速感知，可将多模态语音 token 压缩到每秒仅 3.5 个且不损失识别精度。

方法详解¶

整体框架¶

MMS-LLaMA 由以下组件构成：

视觉编码器（AV-HuBERT）：从唇部视频提取视觉特征 $\mathbf{X}_v \in \mathbb{R}^{T_v \times D}$
音频编码器（Whisper）：提取音频特征 $\mathbf{X}_a \in \mathbb{R}^{T_a \times D}$
长度适配器：对齐音频和视觉特征的时间分辨率
早期 AV 融合模块：将双模态序列融合为单一序列，长度减半
AV Q-Former：通过动态查询分配将序列进一步压缩到文本 token 级别
语速预测器：根据语速调整查询分配
LLM 解码器（LLaMA 3.2 3B）：从压缩后的多模态 token 预测文本

关键设计¶

1. 早期 AV 融合模块¶

做什么：在送入 LLM 之前融合音频和视觉特征，将序列长度减半
核心思路：先用长度适配器对齐两种模态的时间分辨率，然后比较三种融合策略：
拼接（Concatenation）：$\mathbf{X}_{av} = [\mathbf{X}'_a; \mathbf{X}_v] \in \mathbb{R}^{T_v \times 2D}$
加法（Addition）：$\mathbf{X}_{av} = \mathbf{X}'_a + \mathbf{X}_v \in \mathbb{R}^{T_v \times D}$
多模态注意力：$\mathbf{X}_{av} = \text{MHCA}(\mathbf{X}_v W_Q, \mathbf{X}'_a W_K, \mathbf{X}'_a W_V)$
设计动机：将融合前移到 LLM 之前，避免 LLM 同时处理两组高分辨率序列。实验表明拼接在噪声条件下最优（WER 2.4%），最终采用拼接

2. AV Q-Former（动态查询分配）¶

做什么：将变长的音视频特征序列压缩为接近文本 token 数量的短序列
核心思路：定义可学习查询序列 $\mathbf{Q} \in \mathbb{R}^{N \times D_q}$，根据输入时长按比例分配查询数量： $$N_{\text{alloc}} = \lfloor f_Q \times \frac{T_v}{F_v} \rfloor$$ 其中 $f_Q$ 为查询频率（每秒查询数），$T_v/F_v$ 为输入时长。选取前 $N_{\text{alloc}}$ 个查询送入 Q-Former： $$\mathbf{M} = \text{Q-Former}(\mathbf{Q}_{\text{alloc}}; \mathbf{X}_{av})$$
设计动机：固定查询数量的传统 Q-Former 无法处理变长输入——短的浪费、长的不够。动态策略确保语言内容与 token 数量成正比。实验发现查询频率降到 4Hz 仍能保持性能

3. 语速预测器¶

做什么：根据每段音频的语速进一步优化 token 分配
核心思路：训练一个轻量预测器估计归一化语速 $r_s$，修改分配公式为： $$N_{\text{alloc}} = \lfloor f_Q \times \frac{T_v}{F_v} \times r_s \rfloor$$ 快速语音分配更多 token，慢速语音分配更少
架构：2 层 Transformer，256 维嵌入，4 头注意力，1024 维 FFN，用 MSE 损失和仅音频特征预训练
设计动机：相同时长的音频可能包含不同量的语言内容。查询频率 3Hz 下加入语速预测器仅增加 0.7 token/秒但 WER 从 0.95% 降至 0.90%

损失函数/训练策略¶

语速预测器：MSE 损失，以训练集平均语速为基准归一化，冻结参数单独预训练
主模型：标准 CTC/序列生成损失训练
使用 QLoRA 微调 LLM：rank=16, alpha=32, dropout=0.05，仅微调 Q/K/V/Output 投影层
训练：Adam 优化器，初始 lr=1e-4，cosine 调度，30,000 步，0.5k warmup
推理：beam search（beam=5, temperature=0.3）
硬件：8 x RTX 3090 GPU

实验关键数据¶

主实验¶

LRS3 数据集 SOTA 对比：

方法	解码器	训练数据(h)	WER (Noisy)↓	WER (Clean)↓
auto-avsr	Conformer	3448	-	0.9
LP Conformer	LSTM	100K	1.9	0.9
Whisper-Flamingo	Whisper	1759	5.6	0.76
LLaMA-AVSR	LLaMA 3.1 8B	1759	-	0.77
MMS-LLaMA	LLaMA 3.2 3B	1759	1.9	0.72

MMS-LLaMA 以更小的 LLM（3B vs 8B）达到 0.72% WER 的 SOTA，噪声条件下也仅 1.9%。

消融实验¶

各模块逐步集成的效果（433h 训练数据）：

方法	Token/秒	GPU 显存(GB)	FLOPs(T)	WER↓
Baseline (LLaMA-AVSR)	25	18.2	2.24	0.97
+ 早期 AV 融合	12.5	14.7	1.81	0.92
+ AV Q-Former (freq=3)	2.8	12.2	1.42	0.95
+ 语速预测器 (freq=3)	3.5	12.4	1.44	0.90

完整管线将 token 数从 25/秒降至 3.5/秒（减少 86%），FLOPs 从 2.24T 降至 1.44T（减少 35.7%），GPU 显存从 18.2GB 降至 12.4GB（减少 32%），同时 WER 从 0.97% 降至 0.90%。

LLM 规模对比：

LLM	GPU 显存(GB)	FLOPs(T)	WER (Noisy)↓	WER (Clean)↓
LLaMA3.2-1B	9.8	1.19	3.11	1.11
LLaMA3.2-3B	12.3	1.50	2.40	0.90
LLaMA3.1-8B	16.7	2.17	2.61	1.02

LLaMA3.2-3B 在 clean 和 noisy 条件下均最优，不是越大越好。

不同 SNR 下视觉模态的作用（query freq=3）：

条件	无视觉	有视觉
Clean (∞ dB)	1.10	0.95
0 dB	2.66	2.66
-5 dB	13.54	7.44

视觉模态在强噪声下优势巨大：-5 dB 时从 13.54% 降至 7.44%。

关键发现¶

3.5 token/秒足够：多模态语音 token 可以被极度压缩（从 25 到 3.5/秒），损失极小
早期融合很有效：仅将序列减半就能同时降低 FLOPs 和 WER（0.97→0.92%）
语速预测器的收益虽小但稳定：不同查询频率下均能稳定提升 0.05-0.38% WER
3B LLM 比 8B 更好：在此任务中 LLM 参数量的最佳点在 3B 而非 8B
视觉信息在噪声环境极为关键：-5 dB 下视觉模态带来 45% 的相对 WER 降低

亮点与洞察¶

压缩效率惊人：86% 的 token 压缩率 + 35.7% FLOPs 降低 + 性能还有提升，实际部署价值巨大
查询分配策略新颖：动态 + 语速感知的双重调节机制，比固定窗口 Q-Former 更合理
设计哲学清晰：三个模块层层递进——先融合减半，再 Q-Former 压缩，最后语速调节精修
视觉语速预测器：附加实验证明纯视觉语速预测器（基于唇部运动）效果几乎等同于音频版本（0.75% vs 0.72%），在音频不可用场景下也能工作

局限性/可改进方向¶

仅在 LRS3 数据集（英语 TED 演讲）上验证，场景和语言多样性有限
拼接融合策略虽在噪声下最优但在干净条件下不如多模态注意力（0.90% vs 0.87%），可考虑自适应融合策略
语速预测器的训练是分离的，端到端联合训练可能进一步提升
VoxCeleb2 的伪标签质量可能影响模型在非 TED 场景下的泛化

评分¶

新颖性: ⭐⭐⭐⭐ — AV Q-Former 的动态查询分配和语速预测器的结合很有创意
实验充分度: ⭐⭐⭐⭐⭐ — 消融非常细致，覆盖融合策略/LLM 规模/查询频率/SNR 等多个维度
写作质量: ⭐⭐⭐⭐ — 结构清晰，但部分符号使用较繁琐
价值: ⭐⭐⭐⭐⭐ — 实际部署价值极高，86% 压缩率对多模态语音 LLM 的落地至关重要