跳转至

PVChat: Personalized Video Chat with One-Shot Learning

会议: ICCV 2025
arXiv: 2503.17069
代码: https://github.com/PVChat
领域: medical_imaging
关键词: personalized video LLM, one-shot learning, mixture-of-heads, video question answering, identity-aware

一句话总结

提出 PVChat,首个支持从单个参考视频进行个性化主体学习的视频大语言模型,通过 ReLU 路由混合注意力头(ReMoH)机制、系统化的数据增强管道和渐进式图像到视频训练策略,实现身份感知的视频问答,在医疗、电视剧、动漫等多种场景中超越现有 SOTA ViLLM。

研究背景与动机

现有视频大语言模型(ViLLMs)在通用视频理解任务上表现优异,能识别"说话""吃饭"等活动,但在身份感知理解方面严重不足——无法理解"Wilson 正在接受化疗"或"Tom 正在与 Sarah 讨论"这样的个性化场景。这限制了其在智能医疗、智能家居等实际应用中的价值。

现有个性化模型仅支持图像理解,无法建模视频中的动态时序线索(运动模式、交互动态、上下文依赖)。PVChat 旨在填补个性化视频理解的空白,仅需一个参考视频即可学习特定个体的特征并支持身份感知问答。

方法详解

整体框架

PVChat 基于 Mistral-7B-Instruct-v0.3,包含视觉编码器、ReMoH 增强的 LLM 和两阶段训练策略。流程为: 1. 从参考视频中提取个性化主体信息编码为 token 2. 查询视频通过视觉编码器提取帧级特征 3. ReMoH 注意力机制增强主体特定特征学习 4. LLM 生成身份感知的问答响应

关键设计

  1. 系统化数据增强管道: 解决个性化视频数据匮乏问题。

    • 正样本生成: DeepFaceLab 面部提取 → FaceNet + DBSCAN 多人区分 → 面部质量评估(EAR、朝向、清晰度)→ InternVideo2 性别/年龄分类 → ConsisID 生成不同场景视频(丰富但 ID 一致性较差)+ PhotoMaker → LivePortrait 动画化(ID 一致性强但内容简单),两种方式互补。
    • 负样本检索: 从 Laion-Face-5B 中通过 CLIP 检索 top-k 视觉相似面孔 → LivePortrait 动画化作为硬负样本,加上 CelebV-HQ 中随机采样的 30 个视频补充丰富内容的负样本。
    • QA 生成: InternVideo2 生成四类问答(存在性、外貌、动作、位置)→ ChatGPT-4o 润色将通用人称替换为主体名称。每个输入视频扩展为 81 个视频 + 1455 个 QA 对。
  2. ReLU 路由混合注意力头(ReMoH): 将注意力头分为共享头(始终激活)和路由头(按需激活)。相比 MoH 的 Top-k 选择(非完全可微、不灵活),ReMoH 使用 ReLU 路由实现完全可微的动态选择: \(s_i = \begin{cases} \alpha_1, & 1 \leq i \leq n \\ \alpha_2 \text{ReLU}(\mathbf{W}_r \mathbf{x}_t)_i, & n < i \leq n+m \end{cases}\) 其中 \([\alpha_1, \alpha_2] = \text{Softmax}(\mathbf{W}_h \mathbf{x}_t)\) 平衡共享和路由头贡献。ReLU 输出的稀疏性自然实现了选择性激活,仅增加 2 个 MLP 参数。可视化表明 ReMoH 能有效分配特定头学习目标人物特征——有/无目标人物时头激活模式显著不同。

  3. 稀疏性控制策略:

    • 平滑邻近正则化(SPR): \(\mathcal{L}_{SPR} = \beta_p \cdot \|\frac{1}{n}(\mathbf{W}_r \mathbf{x}_t)\|\),其中 \(\beta_{p+1} = \beta_p \cdot e^{k \cdot (T_s - R_s)}\) 步进式自适应权重调整,按指数距离缩放实现平滑训练
    • 头激活增强(HAE): \(\mathcal{L}_{HAE} = e^{2 \cdot (R_s - T_s)} - 1\)(当 \(R_s > T_s\) 时),防止所有专家头趋向零激活

损失函数 / 训练策略

总损失:\(\mathcal{L} = \mathcal{L}_{LM} + \mathcal{L}_{SPR} + \mathcal{L}_{HAE}\)

两阶段训练: - Stage 1 图像理解: 冻结视觉编码器,仅训练 ReMoH 组件和 LoRA 微调 LLM。使用首帧图像 + 存在性/属性描述问答,学习静态身份特征。 - Stage 2 视频推理: 解冻视觉编码器后几层以增强跨帧特征整合。扩展 QA 到动作识别和位置识别任务,使用正负样本训练。 - 训练配置:1×NVIDIA L20 GPU,Stage 1 一个 epoch,Stage 2 七个 epoch,batch size 2,总训练时间约 3 小时 - 每个视频均匀采样 8 帧,分辨率 1080×1920

实验关键数据

主实验

模型 Acc↑ BLEU↑ BertScore↑ ES↑ DC↑
InternVideo2 0.342 0.046 0.875 3.041 1.812
VideoLLaMA2 0.470 0.082 0.890 3.012 3.301
PVChat (Ours) 0.901 0.562 0.952 4.940 4.201

准确率从 0.470 提升至 0.901(+91.7%),BLEU 从 0.082 提升至 0.562(+585%),实体特异性从 3.012 提升至 4.940。

消融实验

ReMoH 注意力机制:

方法 Acc↑ BLEU↑ BS↑ ES↑ DC↑
Baseline (Q-former) 0.733 0.550 0.904 4.735 4.142
Baseline + MoH 0.813 0.558 0.926 4.939 4.191
Baseline + ReMoH 0.901 0.562 0.952 4.940 4.201

SPR 和 HAE 损失:

方法 激活率 Loss Acc↑
w/o SPR and HAE nan
w/o HAE 0.217 0.085 0.746
PVChat (完整) 0.552 0.028 0.901

数据类型贡献:

数据类型 Acc↑ BLEU↑ BS↑
仅原始正样本 0.464 0.417 0.905
+负样本 0.584 0.418 0.931
+ConsisID 正样本 0.781 0.532 0.927
+LivePortrait 正样本 0.901 0.562 0.952

关键发现

  • 仅使用正样本训练时模型对所有问题回答"存在",负样本对身份识别至关重要
  • ReMoH 中的专家头在有/无目标人物时激活模式显著不同,验证了领域特异性学习
  • 去除 SPR 和 HAE 后训练不收敛(loss=nan),SPR+HAE 组合是训练稳定的关键
  • 头激活率从仅 SPR 的 0.217 提升至完整方法的 0.552,HAE 有效防止专家头"沉睡"
  • 每个角色 16 个 token 为最优,更多 token 反而降低性能

亮点与洞察

  • 首个支持视频输入的个性化大语言模型,填补重要研究空白
  • 系统化数据增强管道设计精巧,正样本(ConsisID+LivePortrait 互补)+ 硬负样本的组合极具参考价值
  • ReLU 路由替代 Top-k 选择的优势在于完全可微和灵活自适应,设计简洁(仅增加 2 个 MLP 参数)
  • 3 小时即可在单张 L20 GPU 上完成训练,效率极高
  • 66 个个体场景、304 原始视频、2304 扩展视频、30000+ QA 对的数据集将公开

局限与展望

  • 每个新主体需要单独进行 one-shot 学习(约 3 小时微调),无法实现 zero-shot 个性化
  • 当前每个视频仅采样 8 帧,长视频理解可能不足
  • 数据增强依赖多个外部工具(ConsisID, LivePortrait, DeepFaceLab 等),管道较复杂
  • 仅评估了有限数量的场景(6 个场景 25 个角色),泛化性需更大规模验证

相关工作与启发

  • ReLU 路由 + SPR/HAE 的稀疏性控制策略可推广到其他 MoE/MoH 架构
  • 正负样本生成管道可启发其他个性化模型的数据构建
  • 图像预训练→视频微调的两阶段策略是高效迁移学习的通用范式

评分

  • 新颖性: ⭐⭐⭐⭐ 首个个性化视频 LLM,ReMoH 设计新颖,数据增强管道系统
  • 实验充分度: ⭐⭐⭐⭐ 多场景多指标评估、ReMoH/SPR/HAE/数据类型完整消融、头激活可视化
  • 写作质量: ⭐⭐⭐⭐ 结构完整,管道描述详细,图示丰富
  • 价值: ⭐⭐⭐⭐ 开辟个性化视频理解新方向,医疗/智能家居应用潜力大

相关论文