MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens¶
会议: ACL 2025
arXiv: 2503.11315
代码: https://github.com/JeongHun0716/MMS-LLaMA (有)
领域: 语音
关键词: 音视频语音识别, LLM语音识别, Token压缩, Q-Former, 语速预测
一句话总结¶
提出 MMS-LLaMA,通过早期音视频融合、动态查询分配的 AV Q-Former 和语速预测器三个模块,将多模态语音 token 压缩至每秒仅 3.5 个,在 LRS3 上以 0.72% WER 达到 SOTA 的同时减少 86% token 用量和 35.7% FLOPs。
研究背景与动机¶
-
领域现状:音视频语音识别(AVSR)通过结合音频和唇部运动的视觉信息,在嘈杂环境下实现鲁棒语音识别。近期基于 LLM 的 AVSR 系统(如 LLaMA-AVSR)利用 LLM 的上下文建模能力取得了出色效果,WER 已低至 0.77%。
-
现有痛点:基于 LLM 的 AVSR 系统计算代价极高——多模态语音 token 的时间分辨率远高于文本 token,导致 LLM 的自注意力机制需要处理大量 token。如 LLaMA-AVSR 每秒产生 25 个多模态 token,GPU 显存占用 18.2GB,FLOPs 达 2.24T。
-
核心矛盾:语音信号的高时间分辨率是保证识别精度的基础,但过多 token 导致 LLM 计算负担沉重。如何在压缩 token 数量的同时不丢失语言信息?
-
本文要解决什么:设计高效的多模态语音 LLM 框架,以最少的 token 数量保留足够的语言内容,在不牺牲精度的前提下大幅降低计算成本。
-
切入角度:三步压缩策略——(1) 早期融合将音视频序列长度减半;(2) AV Q-Former 根据输入时长动态分配查询数量进一步压缩;(3) 语速预测器根据语速调整 token 分配,对快速语音分配更多 token。
-
核心idea一句话:通过动态查询分配和语速感知,可将多模态语音 token 压缩到每秒仅 3.5 个且不损失识别精度。
方法详解¶
整体框架¶
MMS-LLaMA 由以下组件构成:
- 视觉编码器(AV-HuBERT):从唇部视频提取视觉特征 \(\mathbf{X}_v \in \mathbb{R}^{T_v \times D}\)
- 音频编码器(Whisper):提取音频特征 \(\mathbf{X}_a \in \mathbb{R}^{T_a \times D}\)
- 长度适配器:对齐音频和视觉特征的时间分辨率
- 早期 AV 融合模块:将双模态序列融合为单一序列,长度减半
- AV Q-Former:通过动态查询分配将序列进一步压缩到文本 token 级别
- 语速预测器:根据语速调整查询分配
- LLM 解码器(LLaMA 3.2 3B):从压缩后的多模态 token 预测文本
关键设计¶
1. 早期 AV 融合模块¶
- 做什么:在送入 LLM 之前融合音频和视觉特征,将序列长度减半
- 核心思路:先用长度适配器对齐两种模态的时间分辨率,然后比较三种融合策略:
- 拼接(Concatenation):\(\mathbf{X}_{av} = [\mathbf{X}'_a; \mathbf{X}_v] \in \mathbb{R}^{T_v \times 2D}\)
- 加法(Addition):\(\mathbf{X}_{av} = \mathbf{X}'_a + \mathbf{X}_v \in \mathbb{R}^{T_v \times D}\)
- 多模态注意力:\(\mathbf{X}_{av} = \text{MHCA}(\mathbf{X}_v W_Q, \mathbf{X}'_a W_K, \mathbf{X}'_a W_V)\)
- 设计动机:将融合前移到 LLM 之前,避免 LLM 同时处理两组高分辨率序列。实验表明拼接在噪声条件下最优(WER 2.4%),最终采用拼接
2. AV Q-Former(动态查询分配)¶
- 做什么:将变长的音视频特征序列压缩为接近文本 token 数量的短序列
- 核心思路:定义可学习查询序列 \(\mathbf{Q} \in \mathbb{R}^{N \times D_q}\),根据输入时长按比例分配查询数量: $\(N_{\text{alloc}} = \lfloor f_Q \times \frac{T_v}{F_v} \rfloor\)$ 其中 \(f_Q\) 为查询频率(每秒查询数),\(T_v/F_v\) 为输入时长。选取前 \(N_{\text{alloc}}\) 个查询送入 Q-Former: $\(\mathbf{M} = \text{Q-Former}(\mathbf{Q}_{\text{alloc}}; \mathbf{X}_{av})\)$
- 设计动机:固定查询数量的传统 Q-Former 无法处理变长输入——短的浪费、长的不够。动态策略确保语言内容与 token 数量成正比。实验发现查询频率降到 4Hz 仍能保持性能
3. 语速预测器¶
- 做什么:根据每段音频的语速进一步优化 token 分配
- 核心思路:训练一个轻量预测器估计归一化语速 \(r_s\),修改分配公式为: $\(N_{\text{alloc}} = \lfloor f_Q \times \frac{T_v}{F_v} \times r_s \rfloor\)$ 快速语音分配更多 token,慢速语音分配更少
- 架构:2 层 Transformer,256 维嵌入,4 头注意力,1024 维 FFN,用 MSE 损失和仅音频特征预训练
- 设计动机:相同时长的音频可能包含不同量的语言内容。查询频率 3Hz 下加入语速预测器仅增加 0.7 token/秒但 WER 从 0.95% 降至 0.90%
损失函数/训练策略¶
- 语速预测器:MSE 损失,以训练集平均语速为基准归一化,冻结参数单独预训练
- 主模型:标准 CTC/序列生成损失训练
- 使用 QLoRA 微调 LLM:rank=16, alpha=32, dropout=0.05,仅微调 Q/K/V/Output 投影层
- 训练:Adam 优化器,初始 lr=1e-4,cosine 调度,30,000 步,0.5k warmup
- 推理:beam search(beam=5, temperature=0.3)
- 硬件:8 x RTX 3090 GPU
实验关键数据¶
主实验¶
LRS3 数据集 SOTA 对比:
| 方法 | 解码器 | 训练数据(h) | WER (Noisy)↓ | WER (Clean)↓ |
|---|---|---|---|---|
| auto-avsr | Conformer | 3448 | - | 0.9 |
| LP Conformer | LSTM | 100K | 1.9 | 0.9 |
| Whisper-Flamingo | Whisper | 1759 | 5.6 | 0.76 |
| LLaMA-AVSR | LLaMA 3.1 8B | 1759 | - | 0.77 |
| MMS-LLaMA | LLaMA 3.2 3B | 1759 | 1.9 | 0.72 |
MMS-LLaMA 以更小的 LLM(3B vs 8B)达到 0.72% WER 的 SOTA,噪声条件下也仅 1.9%。
消融实验¶
各模块逐步集成的效果(433h 训练数据):
| 方法 | Token/秒 | GPU 显存(GB) | FLOPs(T) | WER↓ |
|---|---|---|---|---|
| Baseline (LLaMA-AVSR) | 25 | 18.2 | 2.24 | 0.97 |
| + 早期 AV 融合 | 12.5 | 14.7 | 1.81 | 0.92 |
| + AV Q-Former (freq=3) | 2.8 | 12.2 | 1.42 | 0.95 |
| + 语速预测器 (freq=3) | 3.5 | 12.4 | 1.44 | 0.90 |
完整管线将 token 数从 25/秒降至 3.5/秒(减少 86%),FLOPs 从 2.24T 降至 1.44T(减少 35.7%),GPU 显存从 18.2GB 降至 12.4GB(减少 32%),同时 WER 从 0.97% 降至 0.90%。
LLM 规模对比:
| LLM | GPU 显存(GB) | FLOPs(T) | WER (Noisy)↓ | WER (Clean)↓ |
|---|---|---|---|---|
| LLaMA3.2-1B | 9.8 | 1.19 | 3.11 | 1.11 |
| LLaMA3.2-3B | 12.3 | 1.50 | 2.40 | 0.90 |
| LLaMA3.1-8B | 16.7 | 2.17 | 2.61 | 1.02 |
LLaMA3.2-3B 在 clean 和 noisy 条件下均最优,不是越大越好。
不同 SNR 下视觉模态的作用(query freq=3):
| 条件 | 无视觉 | 有视觉 |
|---|---|---|
| Clean (∞ dB) | 1.10 | 0.95 |
| 0 dB | 2.66 | 2.66 |
| -5 dB | 13.54 | 7.44 |
视觉模态在强噪声下优势巨大:-5 dB 时从 13.54% 降至 7.44%。
关键发现¶
- 3.5 token/秒足够:多模态语音 token 可以被极度压缩(从 25 到 3.5/秒),损失极小
- 早期融合很有效:仅将序列减半就能同时降低 FLOPs 和 WER(0.97→0.92%)
- 语速预测器的收益虽小但稳定:不同查询频率下均能稳定提升 0.05-0.38% WER
- 3B LLM 比 8B 更好:在此任务中 LLM 参数量的最佳点在 3B 而非 8B
- 视觉信息在噪声环境极为关键:-5 dB 下视觉模态带来 45% 的相对 WER 降低
亮点与洞察¶
- 压缩效率惊人:86% 的 token 压缩率 + 35.7% FLOPs 降低 + 性能还有提升,实际部署价值巨大
- 查询分配策略新颖:动态 + 语速感知的双重调节机制,比固定窗口 Q-Former 更合理
- 设计哲学清晰:三个模块层层递进——先融合减半,再 Q-Former 压缩,最后语速调节精修
- 视觉语速预测器:附加实验证明纯视觉语速预测器(基于唇部运动)效果几乎等同于音频版本(0.75% vs 0.72%),在音频不可用场景下也能工作
局限性/可改进方向¶
- 仅在 LRS3 数据集(英语 TED 演讲)上验证,场景和语言多样性有限
- 拼接融合策略虽在噪声下最优但在干净条件下不如多模态注意力(0.90% vs 0.87%),可考虑自适应融合策略
- 语速预测器的训练是分离的,端到端联合训练可能进一步提升
- VoxCeleb2 的伪标签质量可能影响模型在非 TED 场景下的泛化
相关工作与启发¶
- LLaMA-AVSR (Cappellazzo et al., 2024):直接基线,使用 25 token/秒的 LLaMA 3.1 8B 方案
- Whisper-Flamingo (Rouditchenko et al., 2024):将预训练视觉编码器与 Whisper 集成
- Q-Former (Dai et al., 2023):视觉-语言领域的 token 压缩方法,本文将其扩展到音视频语音
- auto-avsr (Ma et al., 2023):Conformer 基础的 AVSR SOTA,用大量数据达 0.9% WER
- 启发:LLM 在语音任务中的瓶颈不在模型能力而在计算效率,token 压缩是核心挑战;动态分配比固定策略更适合变长语音输入
评分¶
- 新颖性: ⭐⭐⭐⭐ — AV Q-Former 的动态查询分配和语速预测器的结合很有创意
- 实验充分度: ⭐⭐⭐⭐⭐ — 消融非常细致,覆盖融合策略/LLM 规模/查询频率/SNR 等多个维度
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,但部分符号使用较繁琐
- 价值: ⭐⭐⭐⭐⭐ — 实际部署价值极高,86% 压缩率对多模态语音 LLM 的落地至关重要