LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale¶

会议: CVPR 2025
arXiv: 2504.16030
代码: https://showlab.github.io/livecc (有)
领域: 音频语音 / 视频理解
关键词: 流式视频LLM, ASR转录, 实时解说, 密集交织, YouTube CC

一句话总结¶

提出 LiveCC，通过将 ASR 转录词与视频帧沿时间轴密集交织训练视频 LLM，构建了 Live-CC-5M 预训练数据集，使 7B 模型在实时视频解说任务上超越 72B 模型（包括 Qwen2.5-VL-72B）。

领域现状：视频 LLM 通常在"观看完整视频后回答问题"的离线模式下训练。但实际场景（如体育解说、视频直播）需要模型在视频流入过程中持续生成描述——流式理解。

现有痛点：现有视频 LLM 缺乏流式能力，因为训练数据是"视频-问题-答案"三元组，不包含时间密集的持续描述。YouTube 虽有海量带字幕的视频但字幕质量参差不齐。

核心矛盾：高质量流式训练数据稀缺——人工标注成本极高，而自动生成的字幕（CC）噪声大。

切入角度：将 YouTube CC 字幕视为 ASR 转录，与视频帧沿时间轴交织形成流式序列。用这种数据格式大规模预训练，再用高质量 WhisperX 转录数据进行 SFT。

核心 idea：ASR 词-视频帧时间交织 = 流式视频理解能力的大规模无监督学习。

流式训练序列格式:
- 功能：让 LLM 学会在视频流入过程中持续生成描述
- 核心思路：序列格式 [Con]<F_{t:t+k}><W_{t:t+k}><F_{t+k:t+2k}><W_{t+k:t+2k}>...，视频帧 2 FPS 采样，ASR 词按时间戳对齐穿插。LLM 在每个时间窗口预测下一段 ASR 词
- 设计动机：与 caption 式（整段描述在最后）对比，streaming 式序列的解说质量从 14.0% 胜率跃升到 32.9%——密集交织让模型学到精确的时间对应关系
两级数据构建（Live-CC-5M + Live-WhisperX-526K）:
- 功能：大规模低质预训练 + 小规模高质 SFT
- 核心思路：Live-CC-5M 从 YouTube 收集 5M 视频片段的 CC 字幕（去除说话人视频），预训练流式能力。Live-WhisperX-526K 用 WhisperX 重新转录 526K 高质量片段，加上 GPT-4o 生成的问答提示，做 SFT
- 设计动机：CC 字幕噪声大但规模大（5M），WhisperX 质量高但成本高（526K）——两级训练平衡了规模和质量

标准自回归语言模型损失，只在 ASR 词的 token 上计算损失（帧 token 不计算）。SFT 混合 Live-WhisperX-526K + LLaVA-Video-178K。推理延迟 <0.5s/帧@2FPS。

任务	LiveCC-7B	Qwen2-VL-7B	GPT-4o
VideoMME (短视频)	70.1%	69.4%	-
LiveSports-3K 胜率	41.5%	33.7%	参考
OVOBench	超越72B模型	-	-

流式序列格式远优于标题式：胜率 32.9% vs 14.0%，说明时间密集交织是流式能力的关键
7B 超越 72B：在实时解说中 LiveCC-7B 超越 Qwen2.5-VL-72B 和 LLaVA-Video-72B，说明数据范式比模型规模更重要
ASR 历史上下文重要：之前说了什么直接影响接下来该说什么