VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction¶

会议: NeurIPS 2025
arXiv: 2501.01957
代码: https://github.com/VITA-MLLM/VITA (有)
领域: 多模态LLM / 语音交互
关键词: multimodal LLM, vision-speech interaction, end-to-end speech, three-stage training, omni model

一句话总结¶

VITA-1.5 提出了一套精心设计的三阶段渐进式训练策略，将视觉和语音能力逐步整合进 LLM 中，实现了无需独立 ASR/TTS 模块的端到端视觉-语音实时交互，在图像、视频和语音基准上均达到开源模型领先水平。

研究背景与动机¶

多模态大语言模型（MLLM）在视觉-文本整合方面取得了显著进展（如 LLaVA、InternVL、Qwen-VL 等），但语音模态的整合却相对滞后。在实际人机交互系统中，语音既是信息传输的关键媒介，也极大提升了交互的自然性和便捷性。

核心矛盾：视觉和语音的模态差异根本性地不同——视觉数据承载空间信息，语音数据承载时序信息。同时优化两种模态经常导致训练冲突：加入语音数据可能降低视觉任务性能，反之亦然。

传统的语音-对-语音系统依赖独立的 ASR + LLM + TTS 三模块级联，存在延迟高、丢失韵律/情感等副语言信息、实时性差等问题。GPT-4o 展示了端到端多模态交互的可能性，但开源社区在同时具备视觉和语音能力的模型方面仍有很大差距。VITA-1.0 做了初步尝试，但引入语音数据对视觉性能造成了干扰，且语音生成仍依赖外部 TTS。

本文切入角度：通过精心设计的三阶段训练策略，渐进式引入不同模态，让模型在增强新模态能力的同时保持已有模态的性能。最终实现端到端的语音输出，消除对外部 TTS 的依赖。

方法详解¶

整体框架¶

VITA-1.5 的模型架构包含：

输入端： - 视觉编码器：InternViT-300M（448×448 输入，256 视觉 token/图像）+ 动态分块（高分辨率图像） - 音频编码器：350M 参数（4× 下采样卷积 + 24 层 Transformer，隐藏维度 1024），输出帧率 12.5Hz - 视觉适配器：两层 MLP - 语音适配器：多层卷积（2× 下采样）

输出端： - 文本输出：LLM（Qwen2-7B）直接输出 - 语音输出：端到端语音生成模块 - TiCodec 编解码器：单码本（大小 1024），40Hz 将语音编码为离散 token，解码回 24kHz 波形 - NAR（非自回归）语音解码器：4 层 LLaMA 解码器，处理文本 token 全局语义 - AR（自回归）语音解码器：4 层 LLaMA 解码器，逐步生成高质量语音 token - 两个解码器各约 120M 参数（隐藏维度 896）

关键设计¶

视频处理策略：
- <4秒视频：均匀采样 4 帧
- 4-16秒视频：每秒 1 帧
- 16秒视频：均匀采样 16 帧
- 视频帧不使用动态分块以避免 token 过多
端到端语音生成：
- 传统方法：LLM → 文本 → TTS → 语音（级联，延迟高）
- VITA-1.5：LLM 文本 token → NAR 解码器（全局语义特征）→ AR 解码器（逐步生成语音 token）→ Codec 解码器（语音波形）
- LLM 冻结，不影响多模态理解性能
输入分类头：在 Stage 2.2 中为 LLM 输出添加分类头，区分输入来自语音还是文本，使模型能灵活处理不同模态

三阶段训练策略¶

核心思路：渐进式引入不同模态，避免模态冲突。

Stage 1：视觉-语言训练

Stage 1.1 视觉对齐：仅训练视觉适配器，20% caption 数据，冻结其余模块
Stage 1.2 视觉理解：训练视觉编码器+适配器+LLM，100% caption 数据，学习图像描述
Stage 1.3 视觉 SFT：训练视觉模块+LLM，100% QA 数据 + 20% caption 数据，获得指令跟随和视觉 QA 能力

Stage 2：音频输入调优

Stage 2.1 音频对齐：
- (a) CTC 损失训练语音编码器（ASR 任务）
- (b) 训练语音适配器+LLM，11000 小时语音-转写对，使 LLM 理解音频输入
Stage 2.2 音频 SFT：4% caption + 20% QA 数据，约半数文本问题替换为 TTS 生成的语音版本，全模块可训练

Stage 3：音频输出调优

Stage 3.1 Codec 训练：用 3000 小时语音数据训练单码本 codec 模型
Stage 3.2 NAR+AR 解码器训练：文本-语音配对数据，LLM 冻结，仅训练语音解码器

训练数据¶

多模态指令调优：共 22133.16K 条 QA（中英双语），涵盖：
- 通用图像描述/QA：ShareGPT4V、LLaVA系列、LVIS-Instruct 等
- OCR & 图表：Anyword-3M、UReader、SynDOG 等
- 视频：ShareGemini + 合成数据
- 纯文本 QA：合成数据
ASR 数据：110,000 小时内部语音-转写配对（中英）
语音生成数据：3000 小时 TTS 生成的文本-语音对

实验关键数据¶

图像理解基准¶

方法	LLM	MMB	MMS	MMMU	MathV	OCR	Avg
GPT-4o	-	82.8	61.6	62.8	56.5	663	69.3
InternVL2	InternLM2.5-7B	79.4	61.5	51.2	58.3	794	67.3
MiniCPM-V 2.6	Qwen2-7B	78.0	57.5	49.8	60.6	852	68.5
VITA-1.0	Mixtral-8x7B	71.8	46.4	47.3	44.9	678	57.8
VITA-1.5 (Stage 1)	Qwen2-7B	77.1	59.1	53.1	66.2	752	67.1
VITA-1.5 (Stage 3)	Qwen2-7B	76.7	59.9	52.1	66.2	732	66.8

语音识别（ASR）¶

模型	aishell-1 (CER↓)	test_net (CER↓)	dev_clean (WER↓)	test_clean (WER↓)
Wav2vec2-base	-	-	6.0	-
Mini-Omni2	-	-	4.8	4.7
Freeze-Omni	2.8	12.6	4.2	4.1
VITA-1.0	-	12.2	7.6	8.1
VITA-1.5	2.2	8.4	3.3	3.4

消融：三阶段训练的效果¶

阶段	MMBench	MMStar	MMMU	MathVista	Video-MME	说明
Stage 1（仅视觉）	77.1	59.1	53.1	66.2	56.8	视觉基线
Stage 3（完整）	76.7	59.9	52.1	66.2	56.1	加入语音后视觉几乎无损

关键发现¶

模态冲突基本被消除：Stage 3 相比 Stage 1，图像理解平均分仅下降 0.3%（67.1→66.8），视频理解仅下降 0.7%，证明三阶段训练策略有效缓解了模态冲突
VITA-1.5 的 ASR 性能全面超越专用语音模型（Freeze-Omni、Mini-Omni2），中文 CER 低至 2.2%
相比 VITA-1.0，图像理解提升 9%（57.8→66.8），ASR 错误率大幅降低（英文 WER 从 8.1 降至 3.4）
在图像理解上已接近 GPT-4o（66.8 vs 69.3），超越 GPT-4V（58.5）和 GPT-4o-mini（66.3）
端到端语音输出避免了 TTS 模块的额外延迟，显著提升实时交互体验

亮点与洞察¶

三阶段渐进式训练：是本文最核心的贡献，通过精心安排数据和可训练模块的顺序，有效解决了视觉-语音模态冲突问题。这一策略具有很强的方法论价值。
端到端语音生成：NAR + AR 双解码器设计在保持 LLM 冻结的前提下实现语音输出，不影响已有的多模态理解能力。
数据工程精细：各阶段的数据配比（如 Stage 2.2 中语音问题替换率约 50%、Stage 1.3 中保留 20% caption 数据增加多样性）经过仔细调优。
产品化潜力：VITA-1.5 展示了开源 omni 模型可以在视觉、语音两个维度同时达到 SOTA 级别的可行性。

局限与展望¶

视频理解与 GPT-4o（71.9）仍有约 16 分的差距（56.1），说明视频模态还有很大提升空间
语音输出的质量和自然度未做详细评估（如 MOS 评分），实际体验有待验证
语音端的训练数据依赖内部 ASR 数据（110K 小时）和 TTS 生成数据，可能不易复现
缺乏双工对话（duplex dialogue）能力的详细评估
单码本 codec 的语音质量可能不如多码本方案（如 EnCodec），但简化了解码

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐