跳转至

ViLL-E: Video LLM Embeddings for Retrieval

会议: ACL 2026
arXiv: 2604.12148
代码: 无
领域: video_understanding
关键词: 视频检索, 视频LLM, embedding生成, 对比学习, 时序定位

一句话总结

提出 ViLL-E,首个同时支持文本生成和 embedding 生成的 Video LLM 统一架构,通过三阶段生成-对比联合训练和自适应 KV-Former embedding head,在视频检索和时序定位上逼近专家模型,同时保持 VideoQA 竞争力。

研究背景与动机

领域现状 Video LLM(如 VideoLLaVA、VideoChat2)在视频问答和字幕生成等文本生成任务上表现出色,但在需要 embedding 匹配的任务(如文本到视频检索 T2V、时序定位 Moment Retrieval)上远落后于专用模型(如 QD-DETR、SigLIP、VidLA)。

现有痛点 当前视频理解需要维护两套独立模型栈:Video LLM 处理生成任务,专用 dual-encoder 处理检索任务。这不仅增加了部署复杂度,还无法在两类任务间共享表示学习。NLP 领域已有研究表明 LLM 可以通过对比微调转化为强检索模型(如 GRIT、E5),但视频领域尚无此类工作。

核心矛盾 Video LLM 的自回归生成架构天然不适合产生 dense embedding,但专用 embedding 模型又缺乏 LLM 的推理和生成能力。如何在单一模型中统一这两种能力是关键挑战。

本文目标 设计一个统一的 VideoLLM 架构,既能生成文本回答,又能产生高质量的视频/文本 embedding,在检索、定位和 QA 任务上都达到竞争性能。

切入角度 在 PaliGemma 多模态 LLM 基础上增加可学习的 embedding head,通过三阶段联合训练策略(大规模预训练→高质量预训练→多任务微调)同时优化生成和判别能力。

核心 idea 关键创新在于 EOS 触发的自适应 embedding 生成机制——模型先自回归生成可变数量的 token,这些 token 被送入 embedding head 聚合为 dense embedding。这允许模型对复杂视频"思考更久",对简单视频快速返回。

方法详解

整体框架

ViLL-E 基于 PaliGemma-3B 多模态 LLM,包含视觉编码器、LLM 主干和新增的 embedding head。视觉 token 和输入提示使用双向注意力,自回归生成的后缀使用因果注意力。当遇到 <EOS> token 时,所有生成的 token 被收集并送入 embedding head 产生 dense embedding。训练分为三个阶段:大规模对比-生成联合预训练、高质量数据续训、多任务微调。

关键设计

  1. KV-Former Embedding Head:

    • 功能:将 LLM 输出的变长 token 序列聚合为固定维度的 dense embedding
    • 核心思路:使用 LLM 的输出 token 作为 query,\(P\) 个可学习的 key 和 value("pooling tokens")作为字典,通过注意力机制自适应加权聚合。之后经 MLP 投影和均值池化得到最终 embedding
    • 设计动机:相比 Q-Former 的固定输出长度,KV-Former 支持可变长度输入,能根据视频复杂度自适应调整;相比简单的 mean pooling 或 self-attention,它提供了独立于生成任务的瓶颈表示容量,同时保持参数效率
  2. EOS 触发的自适应 embedding 生成:

    • 功能:让模型根据视频复杂度自动决定生成多少中间 token 再产生 embedding
    • 核心思路:模型在提取 embedding 前先自回归生成 token 直到 <EOS>,生成的 token 数量随视频复杂度自然变化。复杂视频需要更多分析步骤,简单视频可以快速收敛
    • 设计动机:固定步数的 embedding 生成方法无法适应不同复杂度的视频,自适应机制在效率和表示质量之间取得了更好的平衡
  3. 三阶段生成-对比联合训练:

    • 功能:逐步提升模型在生成和 embedding 任务上的能力
    • 核心思路:Stage 1 在 10M Shutterstock 视频-字幕对上联合训练 next-token prediction(生成)和 CLIP 式对比损失(embedding);Stage 2 在 200K 高质量 Claude-3-Sonnet 生成的长字幕上续训;Stage 3 在 100K 样本上进行四任务微调(QA、检索、匹配、定位)
    • 设计动机:Stage 1 建立基础的视频-语言对齐;Stage 2 通过高质量详细描述弥补原始字幕过于简短的问题;Stage 3 通过多任务微调解锁下游任务能力。消融实验证实每个阶段都有显著贡献

损失函数 / 训练策略

四种任务对应四种损失:(1) 检索任务用 CLIP 式 in-batch contrastive loss;(2) 字幕/QA 用 next-token prediction loss;(3) 匹配任务用二分类交叉熵;(4) 时序定位用 contrastive loss + 滑动窗口 hard negative mining(IoU < 0.2 的片段作为负样本)。微调阶段使用 LoRA 保证参数效率,视觉投影模块和 embedding head 全量训练。

实验关键数据

主实验

任务/数据集 指标 ViLL-E 之前最强 VideoLLM 专家模型
ActivityNet (定位) R@1,IoU=0.5 39.4 31.2 (LLaVA-ST) 33.2 (QD-DETR)
Charades-STA (定位) R@1,IoU=0.5 51.5 44.8 (LLaVA-ST) 57.3 (QD-DETR)
MSR-VTT (检索) R@1 62.5 N/A 58.0 (VidLA)
DiDeMo (检索) R@1 61.4 N/A 61.1 (VidLA)
MSR-VTT QA Acc 65.2 63.2 (ST-LLM) -
Composed Retrieval (零样本) R@1 53.1 - 47.5 (SOTA)

消融实验

配置 MSR QA MSR Retr. ANet Loc. 说明
G+C+M (完整) 65.1 62.8 39.4 三种监督信号联合
G+C (无匹配) 63.9 60.3 39.1 匹配损失对检索有帮助
G only (仅生成) 61.3 25.1 28.7 无对比学习时检索崩溃
C only (仅对比) 45.5 54.7 29.3 无生成损失时 QA 大幅下降
无预训练 55.9 49.3 32.3 预训练对检索至关重要

关键发现

  • ViLL-E 在时序定位上比专用 VideoLLM 平均提升 77%(8+ 百分点),在视频检索上超越 fine-tuned 专家模型达 4%
  • 生成和对比训练互补:联合训练在两类任务上都优于单独训练
  • 零样本新任务能力:组合视频检索超 SOTA 5%,长文本检索超 SOTA 2%
  • KV-Former 设计在所有 embedding head 变体中表现最优
  • 两阶段检索(embedding 检索 + LLM 重排序)比单阶段 R@1 额外提升 2%

亮点与洞察

  • 首次证明单一 VideoLLM 可以同时做好生成任务和 embedding 任务,打破了"两套模型栈"的范式
  • 自适应 embedding 生成机制优雅地解决了视频复杂度差异问题
  • 三阶段训练策略的设计合理,每个阶段各有明确目标且消融实验支撑充分
  • 解锁了之前 VideoLLM 无法完成的新任务(组合检索、长文本检索)

局限与展望

  • 基于 PaliGemma-3B,参数量较小,缺乏多轮对话能力
  • 训练数据主要为英文,可能损失多语言能力
  • 未与最新的通用 VideoLLM(如 Qwen2.5-VL-72B)对比,模型规模差距较大
  • 未来可扩展到更大 backbone 并加入音频模态

相关工作与启发

  • NLP 领域的 GRIT 和 E5 证明了 LLM 可以被改造为强检索模型,本文将这一思路成功扩展到视频领域
  • VLM2Vec、GME 等并发工作仅限于图像,ViLL-E 是首个视频领域的统一方案
  • 对"能否用单一大模型替代多个专用模型"的讨论提供了肯定的实验证据

评分

  • 新颖性: ⭐⭐⭐⭐ 首个统一生成+embedding的VideoLLM,KV-Former设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个benchmark、详细消融、多种零样本新任务验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表信息丰富
  • 价值: ⭐⭐⭐⭐ 为视频理解领域的模型统一化提供了可行路径

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评

相关论文