ET: The Exceptional Trajectories - Text-to-Camera-Trajectory Generation with Character Awareness¶

会议: ECCV 2024
arXiv: 2407.01516
代码: 项目页面
领域: 其他 (电影摄影 / 相机轨迹生成)
关键词: 相机轨迹生成, 扩散模型, 电影摄影, 角色感知, 对比学习嵌入

一句话总结¶

提出首个从真实电影中提取的相机-角色轨迹数据集 E.T.（115K 样本，11M 帧），以及基于扩散模型的 Director 方法，能根据文本描述和角色轨迹生成复杂的相机运动轨迹，同时设计了 CLaTr 对比嵌入用于轨迹生成质量评估。

研究背景与动机¶

问题背景¶

电影摄影中，相机的放置和运动是传达导演意图的核心要素。经过百年实践，电影行业形成了一套"电影语法"来指导相机运动，但掌握这门技艺依然困难，尤其对新手用户而言，面对数百种可能的相机运动选择往往无所适从。

现有方法的局限¶

几何/规则方法：需要为每种运动类型手工设计几何模型或代价函数，无法创造性地混合不同运动

基于示例的方法：需要精心挑选的参考视频，泛化能力差

强化学习方法：需环境特定训练，且结果多样性不足，容易风格坍塌

CCD（同期工作）： - 使用角色中心的相对坐标系简化问题，限制了生成能力 - 仅在合成数据上训练，词汇量仅 48 个词 - 评估指标基于过于简化的相机分类器

数据集空白¶

电影摄影领域缺乏大规模多模态数据集。现有数据集要么是合成的（CCD），要么不包含角色信息和文本描述（RealEstate10K），要么领域不匹配（人体运动数据集 KIT/HumanML3D 只描述人体动作，不涉及相机）。

核心动机¶

本文的根本动机是让电影摄影民主化——通过自然语言描述让普通用户也能生成专业水准的相机轨迹。为此需要解决两个关键问题： 1. 构建首个包含角色轨迹和文本描述的真实电影相机轨迹数据集 2. 设计能利用角色-相机关系的轨迹生成模型

方法详解¶

整体框架¶

本文贡献包含三个部分： 1. E.T. 数据集：从真实电影中提取的相机和角色轨迹 + 文本描述 2. Director：基于扩散的相机轨迹生成模型 3. CLaTr：对比式语言-轨迹嵌入，用于评估指标

关键设计¶

1. E.T. 数据集构建流水线¶

功能：从真实电影片段中提取相机和角色的 3D 轨迹，并生成配对的文本描述。

核心思路：三步流水线——

Step 1: 数据提取与预处理 - 使用 SLAHMR 联合估计相机和 3D 人体姿态 - 对原始输出进行对齐、滤波、平滑等预处理 - 裁剪到最大 300 帧

Step 2: 运动标注 (Motion Tagging) - 将轨迹划分为纯运动片段，考虑 6 个基础运动（左/右、上/下、前/后） - 共 27 种运动组合 - 对相机使用刚体速度 \(\in SE(3)\) 来区分 trucking（横移时面向垂直方向）和 depth（面向移动方向）等相似运动 - 对角色使用髋部中心的线性速度

Step 3: 文本描述生成 - 使用 Hitchcock 法则确定主角（画面中占据面积最大的角色） - 用 Mistral-7B LLM 将运动标签转化为丰富的文本描述 - 生成两种 caption：仅相机描述 + 相机-角色联合描述

设计动机：电影中相机通常相对于被拍摄角色运动，因此必须同时建模二者的关系。

数据集规模：115K 样本、11M 帧、120 小时、词汇量 ~5.4K（远超 CCD 的 48）、230K 条 caption。

2. Director 模型（扩散 Transformer 相机轨迹生成）¶

功能：以角色轨迹和文本描述为条件，通过扩散过程生成相机轨迹。

核心思路：

问题建模：将相机轨迹表示为 \(N\) 个连续相机姿态的序列 \(\mathbf{x}_{1:N}\)，每个姿态 \(\mathbf{x} = [\mathbf{R}|\mathbf{t}]\) 包含旋转（6D 连续表示）和平移。条件包括角色轨迹 \(\mathbf{h}_{1:N}\)（髋部 3D 位置）和文本描述 \(c\)。

扩散框架：采用 EDM 范式，训练去噪器 \(D\)，损失函数为：

\[\mathcal{L}_{\text{score}} = \frac{D(\mathbf{x}, \mathbf{h}, c; \sigma) - \mathbf{x}}{\sigma^2}\]

采样阶段使用 EDM 的二阶确定性采样 + classifier-free guidance。

三种条件注入架构（受 DiT 启发）： - Director A（In-context）：将条件作为 transformer 输入的上下文 token - Director B（AdaLN）：用 AdaLN 调制 transformer 块 — \((1+\gamma)\text{LN}(X) + \beta\)，初始化为零输出 - Director C（Cross-attention）：利用条件的完整序列长度，通过交叉注意力融合

设计动机：不同于 CCD 使用角色中心坐标系，Director 使用全局坐标系，允许更丰富的相机-角色运动关联。

3. CLaTr（对比语言-轨迹嵌入）¶

功能：学习文本和轨迹之间的共享特征嵌入空间，用于评估生成质量。

核心思路：借鉴 CLIP 的对比学习思路，训练 VAE 框架包含轨迹编码器和文本编码器 + 共享特征解码器。

训练包含三个损失： - 重构损失 \(\mathcal{L}_R\)：轨迹和文本特征的重构质量 - KL 损失 \(\mathcal{L}_{KL}\)：正则化各模态分布并强制跨模态相似性 - 跨模态嵌入相似性损失 \(\mathcal{L}_E\)：确保文本和轨迹特征的对齐

基于 CLaTr 可计算 FD_CLaTr（类似 FID）、CLaTr-Score（类似 CLIP-Score）等评估指标。

设计动机：现有评估方法（如 CCD 使用的简单 6 类相机运动分类器）无法捕捉相机轨迹的真实复杂性，需要更鲁棒的评估工具。

训练策略¶

优化器：AdamW，lr=1e-4，\((\beta_1, \beta_2) = (0.9, 0.95)\)，weight decay=0.1
学习率调度：余弦衰减 + 5K 步 warmup，共 170K 步
模型配置：8 层 Transformer，hidden dim=512，16 头注意力
输入：时序长度 300，使用 masking 处理短输入
精度：bfloat16 混合精度训练

实验关键数据¶

主实验¶

E.T. Mixed 子集上的轨迹生成质量对比：

方法	FD_CLaTr ↓	Precision ↑	Coverage ↑	CLaTr-Score ↑	C-F1 ↑
CCD	35.81	0.73	0.67	6.26	0.17
MDM	6.79	0.78	0.76	18.32	0.34
Director A	3.88	0.82	0.85	20.76	0.42
Director B	6.10	0.78	0.78	20.78	0.39
Director C	3.76	0.83	0.86	21.95	0.48

Director C 在 FD_CLaTr 上相比 MDM 降低 3.0，相比 CCD 降低 32.1；CLaTr-Score 相比 MDM 提升 3.6，相比 CCD 提升 15.7。

E.T. Pure 子集对比：

方法	FD_CLaTr ↓	Coverage ↑	CLaTr-Score ↑	C-F1 ↑
CCD	31.33	0.72	3.21	0.27
MDM	6.10	0.80	21.26	0.76
Director C	4.57	0.87	21.49	0.80
Director B	6.61	0.82	23.10	0.86

消融实验¶

Director 架构变体对比 (E.T. mixed)：

架构	条件方式	FD_CLaTr ↓	CLaTr-Score ↑	C-F1 ↑	说明
Director A	In-context	3.88	20.76	0.42	简单高效，效果接近 C
Director B	AdaLN	6.10	20.78	0.39	简单场景好，复杂场景差
Director C	Cross-attention	3.76	21.95	0.48	最佳，但参数更多

关键发现：AdaLN 在纯运动子集上文本-轨迹一致性最好（C-F1=0.86），但在混合运动子集上最差（0.39），说明 AdaLN 能处理简单条件但难以捕捉序列复杂性。

关键发现¶

Director 在所有指标上全面超越 CCD 和 MDM，尤其在混合复杂轨迹上优势明显
Cross-attention 架构最适合处理复杂的条件信号，in-context 方式是简单高效的替代
角色信息至关重要：相机轨迹生成需考虑与角色运动的关系
CLaTr 评估指标的 FD-Score 权衡曲线显示 Director 始终优于 MDM

亮点与洞察¶

开创性的数据集贡献：E.T. 是首个同时包含相机轨迹、角色轨迹和文本描述的真实电影数据集，填补了重要空白
全局坐标系设计：相比 CCD 的角色中心坐标系，全局坐标系允许更丰富多样的相机-角色运动关系
CLaTr 评估框架：为相机轨迹生成领域提供了标准化的评估工具，类似于 FID 对图像生成的贡献
四大定性优势清晰展示：可控性、多样性、复杂性、角色感知能力

局限与展望¶

轨迹描述的表达力有限：当前 caption 不包含角色在画面中的具体位置、修饰词等更精细信息
3D 姿态估计精度：从 2D 视频估计 3D 姿态本身有误差，可能影响数据质量
仅支持单角色场景：多角色交互场景的相机轨迹生成未被探索
缺乏与视频生成的集成：生成的是抽象 3D 轨迹，如何与视频渲染/生成系统对接有待研究
数据集主要来自西方电影：文化多样性和拍摄风格的覆盖面有待扩展

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 数据集和方法都是首创，填补了电影摄影领域的重要空白
实验充分度: ⭐⭐⭐⭐ — 定量指标丰富，定性分析有力，但消融实验可以更深入（如角色条件的影响）
写作质量: ⭐⭐⭐⭐ — 结构清晰，数据集从构建到应用的叙述完整
价值: ⭐⭐⭐⭐ — 数据集价值高，可推动电影摄影自动化，但应用场景相对小众