ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models¶

会议: CVPR 2025
arXiv: 2505.07652
代码: https://shotadapter.github.io/
领域: 扩散模型 / 视频生成
关键词: 多镜头视频生成, 扩散Transformer, 转场控制, 身份一致性, 注意力掩码

一句话总结¶

ShotAdapter 提出了一个轻量框架，通过引入可学习的"转场token"和局部注意力掩码策略，仅需约 5000 次迭代的微调即可将预训练的单镜头 T2V 模型转变为支持多镜头视频生成（T2MSV）的生成器，实现角色身份一致、各镜头独立可控的多镜头视频生成。

研究背景与动机¶

领域现状：当前扩散模型（如 OpenSora、MovieGen、Kling AI 等）在文本到视频生成方面取得了显著进展，但所有现有模型都只能生成单个连续镜头的短视频，缺乏在不同镜头间切换的能力。

现有痛点：实际应用（如电影制作）需要多镜头视频——同一角色在不同场景、不同活动之间切换。现有的拼凑方案都存在严重问题：(1) 将所有描述合并为单个提示无法创建"切镜"且无法展示不同活动；(2) 分别生成每个镜头再拼接会导致角色身份不一致；(3) 先用参考图像生成一致的关键帧再用 I2V 模型动画化，受限于现有工具的能力，身份和背景一致性仍然不足。

核心矛盾：多镜头视频既需要跨镜头的角色/背景一致性（要求全局信息交互），又需要各镜头内容独立可控（要求局部化控制），这两个目标天然矛盾。

本文目标：设计一个模型无关的框架，用最少的微调代价使 T2V 模型支持多镜头生成，同时允许用户控制镜头数量、时长和内容。

切入角度：作者观察到在 NLP 中 [EOS] token 被成功用于标记句子边界，由此类推，可以用一个可学习的"转场 token"来标记视频中镜头之间的切换点。结合局部注意力掩码限制每个文本提示只影响对应镜头的视觉 token，就能实现局部化控制。

核心 idea：引入可学习的转场 token 标记镜头边界，配合局部注意力掩码实现分镜头独立文本控制，在单一完整视频中生成多镜头内容，保持全局注意力以维持身份一致性。

方法详解¶

整体框架¶

ShotAdapter 基于 DiT 架构的 T2V 模型（类似 OpenSora），整个流程如下：输入是一组分镜头的文本提示词和期望的镜头数/时长配置。3D-VAE 将视频编码为潜表示后 patchify 为视觉 token 序列，各镜头的文本条件 token 按顺序拼接，最后附加 \(n-1\) 个转场 token（\(n\) 为镜头数）。整个序列送入 DiT 处理，通过局部注意力掩码控制不同 token 间的交互方式。模型输出经 3D-VAE 解码后得到包含多个镜头的完整视频。

关键设计¶

转场 Token (Transition Token):
- 功能：标记视频中镜头切换的位置，使模型学会在指定帧处生成"剪切"效果
- 核心思路：初始化一组与隐藏维度 \(D\) 匹配的可学习参数，对于 \(n\) 镜头视频重复 \(n-1\) 次并附加到输入序列末尾。在注意力层中，转场 token 只与发生转场的帧的视觉 token 交互。这样模型能学会在这些帧位置生成突变式的场景切换
- 设计动机：类比 NLP 中的特殊 token 机制，用极少的可学习参数（仅一个 embedding 向量）就能编码"镜头切换"这个语义概念。实验证明模型能泛化到训练时未见过的镜头数（2-8 镜头），平均帧误差仅 1-2 帧
局部注意力掩码 (Local Attention Masking):
- 功能：实现分镜头独立的文本控制，使每个文本提示只影响对应镜头的视觉生成
- 核心思路：构建一个结构化的注意力掩码矩阵，约束三种交互方式：(a) 转场 token 只关注转场帧的视觉 token；(b) 每个文本 token 只关注其对应镜头的视觉 token；(c) 视觉和文本 token 自身保持自注意力。这样不同镜头的文本条件可以分别施加影响
- 设计动机：没有掩码时，所有 token 相互交互会稀释分镜头信息的影响力。局部掩码既保留了全局视觉自注意力（确保角色一致性），又限制了文本条件的作用范围
多镜头视频数据集构建流水线:
- 功能：从现有单镜头视频数据集中构建多镜头训练数据
- 核心思路：提出两种方法——(a) 从高动态单镜头视频中随机裁切子片段并拼接（保持背景一致但动作/视角不同）；(b) 将同一身份的多个独立视频聚类后随机组合拼接（引入不同背景的多样性）。后处理包括：用 LLaVA-NeXT 生成分镜头描述、用 YOLO 检测人数、用 DINOv2 验证身份一致性，过滤掉 38% 不合格样本
- 设计动机：缺乏现成的多镜头训练数据是该任务的核心瓶颈。通过这两种互补策略，可以从单镜头数据中自动构造质量较高的多镜头数据，无需人工标注

损失函数 / 训练策略¶

微调采用标准扩散训练损失，冻结预训练模型大部分参数，只更新转场 token 的可学习参数以及注意力层中与掩码相关的组件。仅需约 5000 次迭代（不到预训练迭代数的 1%），使用 90% 更小的 batch size。训练数据包含 2、3、4 镜头的多镜头视频。

实验关键数据¶

主实验¶

方法	2-shot IC↑	3-shot IC↑	4-shot IC↑	2-shot BC↑	TA (2-shot)↑
Random Shots	71.03/80.47	54.76/63.72	48.08/55.87	84.46	26.84
Similar Shots	73.94/82.55	55.15/66.17	49.25/58.67	88.85	26.40
Shots by Ref.	81.74/84.98	67.92/72.97	57.83/67.74	82.11	25.59
ShotAdapter	78.67/86.33	70.30/76.44	61.86/74.89	89.48	27.12

（IC = Identity Consistency，diff bg/same bg；BC = Background Consistency；TA = Text Alignment）

消融实验¶

配置	2-shot IC↑	3-shot IC↑	4-shot IC↑	2-shot BC↑
ShotAdapter (full)	78.67/86.33	70.30/76.44	61.86/74.89	89.48
w/o Transition Token	77.17/84.78	68.95/70.98	58.83/70.24	87.94
仅 2-shot 数据训练	78.05/85.46	70.12/71.53	56.99/68.37	89.08

关键发现¶

ShotAdapter 在 3-shot 和 4-shot 上的身份一致性明显优于所有基线，但在 2-shot 上与 Shots by Reference 基线竞争力相当
转场 token 的加入对背景一致性和文本对齐度有明显贡献，说明它确实帮助模型学会了"切镜"
仅用 2-shot 数据训练的模型在 3-shot 和 4-shot 上仍有不错表现，说明转场 token 的泛化能力强
转场 token 可以泛化到 2-8 镜头，平均帧误差（MSDE）仅 0.83-2.00 帧
用户研究中 ShotAdapter 在身份一致性和背景一致性上以约 73-82% 的选择率胜出

亮点与洞察¶

转场 token 的设计极其简洁优雅——只需一个可学习的 embedding 向量，通过重复 \(n-1\) 次并配合注意力掩码就能控制任意数量的镜头切换，可迁移到其他需要"结构化分段"的生成任务
数据构建流水线解决了"无数据"难题——将单镜头→多镜头的数据转换系统化，利用聚类和自动过滤保证质量，是一个可复用的方法论
局部注意力掩码的设计平衡了全局一致性和局部可控性——视觉 token 间保持全局注意力（身份一致），文本 token 被限制在对应镜头（局部控制），这种思路可推广到其他多条件控制场景

局限与展望¶

仅验证了以人类为主角的场景，动物等其他主体未测试，主要受限于数据过滤策略
最大生成时长受底层模型限制（当前为 128 帧），作者提出可用自回归方式扩展
微调导致轻微的视觉质量下降（用户研究中可察觉），可能与更小 batch size 有关
分辨率限制在 192×320，距离实际影视制作需求还有较大差距

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义 T2MSV 任务并给出端到端解决方案，转场 token 设计新颖
实验充分度: ⭐⭐⭐⭐ 设计了完整的评估流水线和多个基线，但缺少与更多现有方法的对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法表述直观，但数据构建部分可以更精炼
价值: ⭐⭐⭐⭐ 开辟了多镜头视频生成的新方向，但当前效果距实用仍有距离