PVChat: Personalized Video Chat with One-Shot Learning¶

会议: ICCV 2025
arXiv: 2503.17069
代码: https://github.com/PVChat
领域: medical_imaging
关键词: personalized video LLM, one-shot learning, mixture-of-heads, video question answering, identity-aware

一句话总结¶

提出 PVChat，首个支持从单个参考视频进行个性化主体学习的视频大语言模型，通过 ReLU 路由混合注意力头（ReMoH）机制、系统化的数据增强管道和渐进式图像到视频训练策略，实现身份感知的视频问答，在医疗、电视剧、动漫等多种场景中超越现有 SOTA ViLLM。

研究背景与动机¶

现有视频大语言模型（ViLLMs）在通用视频理解任务上表现优异，能识别"说话""吃饭"等活动，但在身份感知理解方面严重不足——无法理解"Wilson 正在接受化疗"或"Tom 正在与 Sarah 讨论"这样的个性化场景。这限制了其在智能医疗、智能家居等实际应用中的价值。

现有个性化模型仅支持图像理解，无法建模视频中的动态时序线索（运动模式、交互动态、上下文依赖）。PVChat 旨在填补个性化视频理解的空白，仅需一个参考视频即可学习特定个体的特征并支持身份感知问答。

方法详解¶

整体框架¶

PVChat 基于 Mistral-7B-Instruct-v0.3，包含视觉编码器、ReMoH 增强的 LLM 和两阶段训练策略。流程为： 1. 从参考视频中提取个性化主体信息编码为 token 2. 查询视频通过视觉编码器提取帧级特征 3. ReMoH 注意力机制增强主体特定特征学习 4. LLM 生成身份感知的问答响应

关键设计¶

系统化数据增强管道: 解决个性化视频数据匮乏问题。
- 正样本生成: DeepFaceLab 面部提取 → FaceNet + DBSCAN 多人区分 → 面部质量评估（EAR、朝向、清晰度）→ InternVideo2 性别/年龄分类 → ConsisID 生成不同场景视频（丰富但 ID 一致性较差）+ PhotoMaker → LivePortrait 动画化（ID 一致性强但内容简单），两种方式互补。
- 负样本检索: 从 Laion-Face-5B 中通过 CLIP 检索 top-k 视觉相似面孔 → LivePortrait 动画化作为硬负样本，加上 CelebV-HQ 中随机采样的 30 个视频补充丰富内容的负样本。
- QA 生成: InternVideo2 生成四类问答（存在性、外貌、动作、位置）→ ChatGPT-4o 润色将通用人称替换为主体名称。每个输入视频扩展为 81 个视频 + 1455 个 QA 对。
ReLU 路由混合注意力头（ReMoH）: 将注意力头分为共享头（始终激活）和路由头（按需激活）。相比 MoH 的 Top-k 选择（非完全可微、不灵活），ReMoH 使用 ReLU 路由实现完全可微的动态选择： \(s_i = \begin{cases} \alpha_1, & 1 \leq i \leq n \\ \alpha_2 \text{ReLU}(\mathbf{W}_r \mathbf{x}_t)_i, & n < i \leq n+m \end{cases}\) 其中 \([\alpha_1, \alpha_2] = \text{Softmax}(\mathbf{W}_h \mathbf{x}_t)\) 平衡共享和路由头贡献。ReLU 输出的稀疏性自然实现了选择性激活，仅增加 2 个 MLP 参数。可视化表明 ReMoH 能有效分配特定头学习目标人物特征——有/无目标人物时头激活模式显著不同。
稀疏性控制策略:
- 平滑邻近正则化（SPR）: \(\mathcal{L}_{SPR} = \beta_p \cdot \|\frac{1}{n}(\mathbf{W}_r \mathbf{x}_t)\|\)，其中 \(\beta_{p+1} = \beta_p \cdot e^{k \cdot (T_s - R_s)}\) 步进式自适应权重调整，按指数距离缩放实现平滑训练
- 头激活增强（HAE）: \(\mathcal{L}_{HAE} = e^{2 \cdot (R_s - T_s)} - 1\)（当 \(R_s > T_s\) 时），防止所有专家头趋向零激活

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{LM} + \mathcal{L}_{SPR} + \mathcal{L}_{HAE}\)

两阶段训练： - Stage 1 图像理解: 冻结视觉编码器，仅训练 ReMoH 组件和 LoRA 微调 LLM。使用首帧图像 + 存在性/属性描述问答，学习静态身份特征。 - Stage 2 视频推理: 解冻视觉编码器后几层以增强跨帧特征整合。扩展 QA 到动作识别和位置识别任务，使用正负样本训练。 - 训练配置：1×NVIDIA L20 GPU，Stage 1 一个 epoch，Stage 2 七个 epoch，batch size 2，总训练时间约 3 小时 - 每个视频均匀采样 8 帧，分辨率 1080×1920

实验关键数据¶

主实验¶

模型	Acc↑	BLEU↑	BertScore↑	ES↑	DC↑
InternVideo2	0.342	0.046	0.875	3.041	1.812
VideoLLaMA2	0.470	0.082	0.890	3.012	3.301
PVChat (Ours)	0.901	0.562	0.952	4.940	4.201

准确率从 0.470 提升至 0.901（+91.7%），BLEU 从 0.082 提升至 0.562（+585%），实体特异性从 3.012 提升至 4.940。

消融实验¶

ReMoH 注意力机制:

方法	Acc↑	BLEU↑	BS↑	ES↑	DC↑
Baseline (Q-former)	0.733	0.550	0.904	4.735	4.142
Baseline + MoH	0.813	0.558	0.926	4.939	4.191
Baseline + ReMoH	0.901	0.562	0.952	4.940	4.201

SPR 和 HAE 损失:

方法	激活率	Loss	Acc↑
w/o SPR and HAE	–	nan	–
w/o HAE	0.217	0.085	0.746
PVChat (完整)	0.552	0.028	0.901

数据类型贡献:

数据类型	Acc↑	BLEU↑	BS↑
仅原始正样本	0.464	0.417	0.905
+负样本	0.584	0.418	0.931
+ConsisID 正样本	0.781	0.532	0.927
+LivePortrait 正样本	0.901	0.562	0.952

关键发现¶

仅使用正样本训练时模型对所有问题回答"存在"，负样本对身份识别至关重要
ReMoH 中的专家头在有/无目标人物时激活模式显著不同，验证了领域特异性学习
去除 SPR 和 HAE 后训练不收敛（loss=nan），SPR+HAE 组合是训练稳定的关键
头激活率从仅 SPR 的 0.217 提升至完整方法的 0.552，HAE 有效防止专家头"沉睡"
每个角色 16 个 token 为最优，更多 token 反而降低性能

亮点与洞察¶

首个支持视频输入的个性化大语言模型，填补重要研究空白
系统化数据增强管道设计精巧，正样本（ConsisID+LivePortrait 互补）+ 硬负样本的组合极具参考价值
ReLU 路由替代 Top-k 选择的优势在于完全可微和灵活自适应，设计简洁（仅增加 2 个 MLP 参数）
3 小时即可在单张 L20 GPU 上完成训练，效率极高
66 个个体场景、304 原始视频、2304 扩展视频、30000+ QA 对的数据集将公开

局限与展望¶

每个新主体需要单独进行 one-shot 学习（约 3 小时微调），无法实现 zero-shot 个性化
当前每个视频仅采样 8 帧，长视频理解可能不足
数据增强依赖多个外部工具（ConsisID, LivePortrait, DeepFaceLab 等），管道较复杂
仅评估了有限数量的场景（6 个场景 25 个角色），泛化性需更大规模验证

评分¶

新颖性: ⭐⭐⭐⭐ 首个个性化视频 LLM，ReMoH 设计新颖，数据增强管道系统
实验充分度: ⭐⭐⭐⭐ 多场景多指标评估、ReMoH/SPR/HAE/数据类型完整消融、头激活可视化
写作质量: ⭐⭐⭐⭐ 结构完整，管道描述详细，图示丰富
价值: ⭐⭐⭐⭐ 开辟个性化视频理解新方向，医疗/智能家居应用潜力大