Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition¶

会议: ICCV 2025
arXiv: 2412.09501
代码: github.com/dvlab-research/Lyra
领域: 语音/多模态
关键词: 多模态大语言模型, 语音理解, 全模态认知, 高效推理, 长语音

一句话总结¶

提出 Lyra，一个以语音为中心的高效全模态 MLLM 框架，通过多模态 LoRA、潜在跨模态正则化器和潜在多模态提取器三大策略，使用更少的训练数据实现视觉-语言-语音多模态的 SOTA 性能，并首次支持长达数小时的语音输入。

研究背景与动机¶

领域现状¶

当前多模态大语言模型（MLLM）主要聚焦于视觉-语言或语音-语言双模态交互，但真正的全模态（Omni）模型——能同时处理图像、视频、语音、声音的模型——仍然欠发展。OpenAI 的 GPT-4o 展示了全模态交互的可能性，但开源社区的全模态模型在语音方面的能力明显不足。

现有痛点¶

语音模态被忽视：现有全模态模型（VITA、AnyGPT、EMOVA 等）主要关注语音与文本的关系，未深入探索语音与视觉等其他模态的交互

数据规模与训练成本的矛盾：扩展到全模态需要更大规模的数据集和更多的计算资源

长语音处理受限：现有模型受限于语音编码器（如 Whisper），最多只能处理 30 秒到 1 分钟的音频输入

评估标准不完善：之前的全模态模型仅用 LibriSpeech WER 评估语音-文本能力，忽略了语音与视觉等跨模态的性能

核心发现¶

语音-文本性能好不等于语音-视觉性能好。实验表明，仅用 \(\mathcal{L}_{CE}\) 训练时，语音+图像(S+I)相比文本+图像(T+I)在 MM-Vet 上差 8 个百分点（53.1 vs 61.1），说明语音 token 与文本 token 之间的语义鸿沟需要专门弥合。

方法详解¶

整体框架¶

Lyra 由四个核心组件组成：潜在跨模态正则化器（LCMR）、多模态 LoRA、潜在多模态提取器（LMME）和流式语音-文本生成模块。各模态数据通过各自的编码器和投影器处理后送入 LLM，在 LLM 内部多模态 LoRA 和 LMME 模块协同工作。

关键设计¶

1. 潜在跨模态正则化器（Latent Cross-Modality Regularizer, LCMR）¶

功能：在输入 LLM 之前，将语音 token 尽量对齐到对应的转录文本 token，弥合语音与文本之间的语义鸿沟
核心思路：语音 token 和转录文本 token 长度不一致（语音通常更长），使用动态时间规整（DTW）算法计算两者的最小距离：

\[\mathbf{D}_{l,s} = \text{dist}(l,s) + \min\{\mathbf{D}_{l,s-1}, \mathbf{D}_{l-1,s}, \mathbf{D}_{l-1,s-1}\}\]

其中 \(\text{dist}(l,s) = -\log[\text{softmax}(\mathbf{X}_{[\text{speech}],l} \mathbf{X}_{[\text{STT}],s}^\top / \tau)]\)

最终正则化损失 \(\mathcal{L}_{LCMR} = \frac{1}{L+S}\mathbf{D}_{L,S}\)，总损失 \(\mathcal{L}_{total} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{LCMR}\)

设计动机：语音虽然在语义上与文本高度重叠，但直接使用语音 token 作为指令会显著降低跨模态性能。通过 DTW 对齐不等长序列，使语音 token 在输入 LLM 之前就尽量接近文本 token 的表示

2. 多模态 LoRA（Multi-Modality LoRA）¶

功能：为不同模态组合使用独立的 LoRA 适配器，在保留原有视觉能力的同时扩展语音能力
核心思路：输出 \(\mathbf{H} = (\mathbf{B}_{[M]}\mathbf{A}_{[M]} + \mathbf{W})\mathbf{X}_{[M]}\)，其中 \(\mathbf{A}_{[M]}\), \(\mathbf{B}_{[M]}\) 是模态组合 M 对应的低秩适配器
设计动机：在数据量和质量有限的情况下，直接联合训练视觉-语音-语言三模态会降低原有的视觉能力。LoRA 的参数高效特性避免了这个问题

3. 潜在多模态提取器（Latent Multi-Modality Extractor, LMME）¶

功能：根据文本查询的相关性动态筛选多模态 token，丢弃冗余 token 以提升效率
核心思路：将 LLM 分为 \(n\) 个 block，在每个 block 末尾根据文本 query 与非文本 token 的注意力分数筛选 top-k：

\[\text{topk}\left(\text{softmax}\left(\frac{\mathbf{Q}_{[\text{text}]}\mathbf{K}_{[\backslash\text{text}]}^\top}{\sqrt{d}}\right)\right)\]

每个 block 保留 \(\rho L\) 个 token，token 数量按 block 指数衰减 - 设计动机：多模态长上下文（高分辨率图像、长视频、长语音）中大量 token 与指令无关，不仅增加计算负担还引入噪声。通过动态筛选只保留与指令相关的 10%-25% token

损失函数 / 训练策略¶

四阶段训练： 1. 语音编码器预训练（文本到语音） 2. 文本-图像-语音联合训练（LLM + 投影器） 3. 长语音能力扩展 4. 语音生成器训练（流式文本+音频输出）

语音 token 压缩：经实验验证，将每 30 秒语音从 1500 token 压缩到 300 token 几乎不损失性能（TextVQA^S: 77.8% vs 76.8%），2 小时音频从 360,000 token 降至可处理范围。

实验关键数据¶

主实验¶

方法	参数量	TextVQA	MME	MM-Vet	VideoMME	TextVQA^S	DocVQA^S	LibriSpeech↓
Mini-Gemini	8B	71.9	1989	53.5	-	-	-	-
LLaVA-OV	7B	65.4	1998	57.5	58.2	-	-	-
Intern-VL2	8B	77.4	2211	60.0	54.0	-	-	-
VITA	66B	-	2097	41.6	59.2	-	-	8.1
EMOVA	14B	82.0	2205	55.8	-	-	-	4.0
Lyra-Mini	3B	78.3	1884	51.2	55.0	73.4	74.8	2.1
Lyra-Base	9B	82.6	2335	63.5	62.8	80.0	85.5	2.0
Lyra-Pro	74B	83.5	2485	71.4	69.9	81.0	89.4	1.8

Lyra-Base 在图像-语音任务上相比最佳全模态模型提升约 9%，在语音-文本上提升约 2%。

消融实验¶

组件	TextVQA (S+I)	TextVQA (T+I)	MM-Vet (S+I)	MM-Vet (T+I)	LibriSpeech (S+T)
Baseline (无 LCMR)	-	82.3	-	62.8	-
\(\mathcal{L}_{CE}\) only	76.7	79.5	53.1	61.1	1.9
\(\mathcal{L}_{CE} + \lambda\mathcal{L}_{LCMR}\)	77.8	80.1	58.1	62.6	2.0

LMME 效率提升：

Token 数量	Prefill Time (Baseline → LMME(4,0.7))	内存 (Baseline → LMME(4,0.7))
\(2^{13}\)	0.65s → 0.37s	30G → 18G
\(2^{15}\)	2.99s → 1.23s	60G → 30G
\(2^{16}\)	OOM → 3.05s	OOM → 46G

关键发现¶

LCMR 同时提升了语音-图像和文本-图像的性能，说明语音对齐训练对整体多模态能力有正向影响
仅用 LibriSpeech WER 评估语音模态是不充分的：\(\mathcal{L}_{CE}\) 下语音-文本 WER 几乎不变（1.9 vs 2.0），但语音-视觉差距巨大
LMME 最终只保留 10%-25% 的多模态 token，训练加速超过 50%
语音 token 压缩到 300 是性能-效率的最佳平衡点

亮点与洞察¶

以语音为中心的评估视角：揭示了现有全模态模型评估的盲区——语音-文本性能好不代表语音-视觉性能好
DTW 用于跨模态对齐：巧妙利用动态时间规整解决语音和文本 token 长度不一致的问题
三模态 token 压缩的统一框架：LMME 对图像、视频、语音 token 统一适用，显著降低长上下文场景的资源需求
首个长语音 SFT 数据集：12K 长语音样本（数分钟到 2 小时），填补了长语音理解训练数据的空白

局限与展望¶

依赖 Qwen2-VL 作为视觉基座，视觉能力的天花板受限于此
DTW 对齐的计算复杂度为 \(O(L \times S)\)，对长语音可能成为瓶颈
长语音 SFT 数据集仅 12K 样本，规模仍然有限
语音生成质量未做定量评估（如 MOS 分数）
仅支持英语语音，多语言扩展性未验证

评分¶

新颖性: ⭐⭐⭐⭐ — 语音中心的全模态框架设计和评估视角有新意，DTW 跨模态对齐巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖视觉-语言、视觉-语音、语音-语言全面比较，消融详尽
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机论述有说服力
价值: ⭐⭐⭐⭐⭐ — 填补了语音中心全模态 MLLM 的空白，开源代码和数据集对社区有重要贡献