跳转至

ET: The Exceptional Trajectories - Text-to-Camera-Trajectory Generation with Character Awareness

会议: ECCV 2024
arXiv: 2407.01516
代码: 项目页面
领域: 其他 (电影摄影 / 相机轨迹生成)
关键词: 相机轨迹生成, 扩散模型, 电影摄影, 角色感知, 对比学习嵌入

一句话总结

提出首个从真实电影中提取的相机-角色轨迹数据集 E.T.(115K 样本,11M 帧),以及基于扩散模型的 Director 方法,能根据文本描述和角色轨迹生成复杂的相机运动轨迹,同时设计了 CLaTr 对比嵌入用于轨迹生成质量评估。

研究背景与动机

问题背景

电影摄影中,相机的放置和运动是传达导演意图的核心要素。经过百年实践,电影行业形成了一套"电影语法"来指导相机运动,但掌握这门技艺依然困难,尤其对新手用户而言,面对数百种可能的相机运动选择往往无所适从。

现有方法的局限

几何/规则方法:需要为每种运动类型手工设计几何模型或代价函数,无法创造性地混合不同运动

基于示例的方法:需要精心挑选的参考视频,泛化能力差

强化学习方法:需环境特定训练,且结果多样性不足,容易风格坍塌

CCD(同期工作): - 使用角色中心的相对坐标系简化问题,限制了生成能力 - 仅在合成数据上训练,词汇量仅 48 个词 - 评估指标基于过于简化的相机分类器

数据集空白

电影摄影领域缺乏大规模多模态数据集。现有数据集要么是合成的(CCD),要么不包含角色信息和文本描述(RealEstate10K),要么领域不匹配(人体运动数据集 KIT/HumanML3D 只描述人体动作,不涉及相机)。

核心动机

本文的根本动机是让电影摄影民主化——通过自然语言描述让普通用户也能生成专业水准的相机轨迹。为此需要解决两个关键问题: 1. 构建首个包含角色轨迹和文本描述的真实电影相机轨迹数据集 2. 设计能利用角色-相机关系的轨迹生成模型

方法详解

整体框架

本文贡献包含三个部分: 1. E.T. 数据集:从真实电影中提取的相机和角色轨迹 + 文本描述 2. Director:基于扩散的相机轨迹生成模型 3. CLaTr:对比式语言-轨迹嵌入,用于评估指标

关键设计

1. E.T. 数据集构建流水线

功能:从真实电影片段中提取相机和角色的 3D 轨迹,并生成配对的文本描述。

核心思路:三步流水线——

Step 1: 数据提取与预处理 - 使用 SLAHMR 联合估计相机和 3D 人体姿态 - 对原始输出进行对齐、滤波、平滑等预处理 - 裁剪到最大 300 帧

Step 2: 运动标注 (Motion Tagging) - 将轨迹划分为纯运动片段,考虑 6 个基础运动(左/右、上/下、前/后) - 共 27 种运动组合 - 对相机使用刚体速度 \(\in SE(3)\) 来区分 trucking(横移时面向垂直方向)和 depth(面向移动方向)等相似运动 - 对角色使用髋部中心的线性速度

Step 3: 文本描述生成 - 使用 Hitchcock 法则确定主角(画面中占据面积最大的角色) - 用 Mistral-7B LLM 将运动标签转化为丰富的文本描述 - 生成两种 caption:仅相机描述 + 相机-角色联合描述

设计动机:电影中相机通常相对于被拍摄角色运动,因此必须同时建模二者的关系。

数据集规模:115K 样本、11M 帧、120 小时、词汇量 ~5.4K(远超 CCD 的 48)、230K 条 caption。

2. Director 模型(扩散 Transformer 相机轨迹生成)

功能:以角色轨迹和文本描述为条件,通过扩散过程生成相机轨迹。

核心思路

问题建模:将相机轨迹表示为 \(N\) 个连续相机姿态的序列 \(\mathbf{x}_{1:N}\),每个姿态 \(\mathbf{x} = [\mathbf{R}|\mathbf{t}]\) 包含旋转(6D 连续表示)和平移。条件包括角色轨迹 \(\mathbf{h}_{1:N}\)(髋部 3D 位置)和文本描述 \(c\)

扩散框架:采用 EDM 范式,训练去噪器 \(D\),损失函数为:

\[\mathcal{L}_{\text{score}} = \frac{D(\mathbf{x}, \mathbf{h}, c; \sigma) - \mathbf{x}}{\sigma^2}\]

采样阶段使用 EDM 的二阶确定性采样 + classifier-free guidance。

三种条件注入架构(受 DiT 启发): - Director A(In-context):将条件作为 transformer 输入的上下文 token - Director B(AdaLN):用 AdaLN 调制 transformer 块 — \((1+\gamma)\text{LN}(X) + \beta\),初始化为零输出 - Director C(Cross-attention):利用条件的完整序列长度,通过交叉注意力融合

设计动机:不同于 CCD 使用角色中心坐标系,Director 使用全局坐标系,允许更丰富的相机-角色运动关联。

3. CLaTr(对比语言-轨迹嵌入)

功能:学习文本和轨迹之间的共享特征嵌入空间,用于评估生成质量。

核心思路:借鉴 CLIP 的对比学习思路,训练 VAE 框架包含轨迹编码器和文本编码器 + 共享特征解码器。

训练包含三个损失: - 重构损失 \(\mathcal{L}_R\):轨迹和文本特征的重构质量 - KL 损失 \(\mathcal{L}_{KL}\):正则化各模态分布并强制跨模态相似性 - 跨模态嵌入相似性损失 \(\mathcal{L}_E\):确保文本和轨迹特征的对齐

基于 CLaTr 可计算 FD_CLaTr(类似 FID)、CLaTr-Score(类似 CLIP-Score)等评估指标。

设计动机:现有评估方法(如 CCD 使用的简单 6 类相机运动分类器)无法捕捉相机轨迹的真实复杂性,需要更鲁棒的评估工具。

训练策略

  • 优化器:AdamW,lr=1e-4,\((\beta_1, \beta_2) = (0.9, 0.95)\),weight decay=0.1
  • 学习率调度:余弦衰减 + 5K 步 warmup,共 170K 步
  • 模型配置:8 层 Transformer,hidden dim=512,16 头注意力
  • 输入:时序长度 300,使用 masking 处理短输入
  • 精度:bfloat16 混合精度训练

实验关键数据

主实验

E.T. Mixed 子集上的轨迹生成质量对比

方法 FD_CLaTr ↓ Precision ↑ Coverage ↑ CLaTr-Score ↑ C-F1 ↑
CCD 35.81 0.73 0.67 6.26 0.17
MDM 6.79 0.78 0.76 18.32 0.34
Director A 3.88 0.82 0.85 20.76 0.42
Director B 6.10 0.78 0.78 20.78 0.39
Director C 3.76 0.83 0.86 21.95 0.48

Director C 在 FD_CLaTr 上相比 MDM 降低 3.0,相比 CCD 降低 32.1;CLaTr-Score 相比 MDM 提升 3.6,相比 CCD 提升 15.7。

E.T. Pure 子集对比

方法 FD_CLaTr ↓ Coverage ↑ CLaTr-Score ↑ C-F1 ↑
CCD 31.33 0.72 3.21 0.27
MDM 6.10 0.80 21.26 0.76
Director C 4.57 0.87 21.49 0.80
Director B 6.61 0.82 23.10 0.86

消融实验

Director 架构变体对比 (E.T. mixed):

架构 条件方式 FD_CLaTr ↓ CLaTr-Score ↑ C-F1 ↑ 说明
Director A In-context 3.88 20.76 0.42 简单高效,效果接近 C
Director B AdaLN 6.10 20.78 0.39 简单场景好,复杂场景差
Director C Cross-attention 3.76 21.95 0.48 最佳,但参数更多

关键发现:AdaLN 在纯运动子集上文本-轨迹一致性最好(C-F1=0.86),但在混合运动子集上最差(0.39),说明 AdaLN 能处理简单条件但难以捕捉序列复杂性。

关键发现

  1. Director 在所有指标上全面超越 CCD 和 MDM,尤其在混合复杂轨迹上优势明显
  2. Cross-attention 架构最适合处理复杂的条件信号,in-context 方式是简单高效的替代
  3. 角色信息至关重要:相机轨迹生成需考虑与角色运动的关系
  4. CLaTr 评估指标的 FD-Score 权衡曲线显示 Director 始终优于 MDM

亮点与洞察

  1. 开创性的数据集贡献:E.T. 是首个同时包含相机轨迹、角色轨迹和文本描述的真实电影数据集,填补了重要空白
  2. 全局坐标系设计:相比 CCD 的角色中心坐标系,全局坐标系允许更丰富多样的相机-角色运动关系
  3. CLaTr 评估框架:为相机轨迹生成领域提供了标准化的评估工具,类似于 FID 对图像生成的贡献
  4. 四大定性优势清晰展示:可控性、多样性、复杂性、角色感知能力

局限与展望

  1. 轨迹描述的表达力有限:当前 caption 不包含角色在画面中的具体位置、修饰词等更精细信息
  2. 3D 姿态估计精度:从 2D 视频估计 3D 姿态本身有误差,可能影响数据质量
  3. 仅支持单角色场景:多角色交互场景的相机轨迹生成未被探索
  4. 缺乏与视频生成的集成:生成的是抽象 3D 轨迹,如何与视频渲染/生成系统对接有待研究
  5. 数据集主要来自西方电影:文化多样性和拍摄风格的覆盖面有待扩展

相关工作与启发

  • 人体运动生成 (MDM, HumanML3D):Director 借鉴了人体运动扩散模型的架构思路,并成功迁移到相机轨迹生成
  • DiT (Diffusion Transformer):三种条件注入架构直接受 DiT 启发
  • CLIP/TMR:CLaTr 的对比学习框架源自图像-文本和运动-文本的对比学习范式
  • SLAHMR:关键的 3D 姿态估计工具,使从真实电影中提取数据成为可能

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 数据集和方法都是首创,填补了电影摄影领域的重要空白
  • 实验充分度: ⭐⭐⭐⭐ — 定量指标丰富,定性分析有力,但消融实验可以更深入(如角色条件的影响)
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,数据集从构建到应用的叙述完整
  • 价值: ⭐⭐⭐⭐ — 数据集价值高,可推动电影摄影自动化,但应用场景相对小众

相关论文