ET: The Exceptional Trajectories - Text-to-Camera-Trajectory Generation with Character Awareness¶
会议: ECCV 2024
arXiv: 2407.01516
代码: 项目页面
领域: 其他 (电影摄影 / 相机轨迹生成)
关键词: 相机轨迹生成, 扩散模型, 电影摄影, 角色感知, 对比学习嵌入
一句话总结¶
提出首个从真实电影中提取的相机-角色轨迹数据集 E.T.(115K 样本,11M 帧),以及基于扩散模型的 Director 方法,能根据文本描述和角色轨迹生成复杂的相机运动轨迹,同时设计了 CLaTr 对比嵌入用于轨迹生成质量评估。
研究背景与动机¶
问题背景¶
电影摄影中,相机的放置和运动是传达导演意图的核心要素。经过百年实践,电影行业形成了一套"电影语法"来指导相机运动,但掌握这门技艺依然困难,尤其对新手用户而言,面对数百种可能的相机运动选择往往无所适从。
现有方法的局限¶
几何/规则方法:需要为每种运动类型手工设计几何模型或代价函数,无法创造性地混合不同运动
基于示例的方法:需要精心挑选的参考视频,泛化能力差
强化学习方法:需环境特定训练,且结果多样性不足,容易风格坍塌
CCD(同期工作): - 使用角色中心的相对坐标系简化问题,限制了生成能力 - 仅在合成数据上训练,词汇量仅 48 个词 - 评估指标基于过于简化的相机分类器
数据集空白¶
电影摄影领域缺乏大规模多模态数据集。现有数据集要么是合成的(CCD),要么不包含角色信息和文本描述(RealEstate10K),要么领域不匹配(人体运动数据集 KIT/HumanML3D 只描述人体动作,不涉及相机)。
核心动机¶
本文的根本动机是让电影摄影民主化——通过自然语言描述让普通用户也能生成专业水准的相机轨迹。为此需要解决两个关键问题: 1. 构建首个包含角色轨迹和文本描述的真实电影相机轨迹数据集 2. 设计能利用角色-相机关系的轨迹生成模型
方法详解¶
整体框架¶
本文贡献包含三个部分: 1. E.T. 数据集:从真实电影中提取的相机和角色轨迹 + 文本描述 2. Director:基于扩散的相机轨迹生成模型 3. CLaTr:对比式语言-轨迹嵌入,用于评估指标
关键设计¶
1. E.T. 数据集构建流水线¶
功能:从真实电影片段中提取相机和角色的 3D 轨迹,并生成配对的文本描述。
核心思路:三步流水线——
Step 1: 数据提取与预处理 - 使用 SLAHMR 联合估计相机和 3D 人体姿态 - 对原始输出进行对齐、滤波、平滑等预处理 - 裁剪到最大 300 帧
Step 2: 运动标注 (Motion Tagging) - 将轨迹划分为纯运动片段,考虑 6 个基础运动(左/右、上/下、前/后) - 共 27 种运动组合 - 对相机使用刚体速度 \(\in SE(3)\) 来区分 trucking(横移时面向垂直方向)和 depth(面向移动方向)等相似运动 - 对角色使用髋部中心的线性速度
Step 3: 文本描述生成 - 使用 Hitchcock 法则确定主角(画面中占据面积最大的角色) - 用 Mistral-7B LLM 将运动标签转化为丰富的文本描述 - 生成两种 caption:仅相机描述 + 相机-角色联合描述
设计动机:电影中相机通常相对于被拍摄角色运动,因此必须同时建模二者的关系。
数据集规模:115K 样本、11M 帧、120 小时、词汇量 ~5.4K(远超 CCD 的 48)、230K 条 caption。
2. Director 模型(扩散 Transformer 相机轨迹生成)¶
功能:以角色轨迹和文本描述为条件,通过扩散过程生成相机轨迹。
核心思路:
问题建模:将相机轨迹表示为 \(N\) 个连续相机姿态的序列 \(\mathbf{x}_{1:N}\),每个姿态 \(\mathbf{x} = [\mathbf{R}|\mathbf{t}]\) 包含旋转(6D 连续表示)和平移。条件包括角色轨迹 \(\mathbf{h}_{1:N}\)(髋部 3D 位置)和文本描述 \(c\)。
扩散框架:采用 EDM 范式,训练去噪器 \(D\),损失函数为:
采样阶段使用 EDM 的二阶确定性采样 + classifier-free guidance。
三种条件注入架构(受 DiT 启发): - Director A(In-context):将条件作为 transformer 输入的上下文 token - Director B(AdaLN):用 AdaLN 调制 transformer 块 — \((1+\gamma)\text{LN}(X) + \beta\),初始化为零输出 - Director C(Cross-attention):利用条件的完整序列长度,通过交叉注意力融合
设计动机:不同于 CCD 使用角色中心坐标系,Director 使用全局坐标系,允许更丰富的相机-角色运动关联。
3. CLaTr(对比语言-轨迹嵌入)¶
功能:学习文本和轨迹之间的共享特征嵌入空间,用于评估生成质量。
核心思路:借鉴 CLIP 的对比学习思路,训练 VAE 框架包含轨迹编码器和文本编码器 + 共享特征解码器。
训练包含三个损失: - 重构损失 \(\mathcal{L}_R\):轨迹和文本特征的重构质量 - KL 损失 \(\mathcal{L}_{KL}\):正则化各模态分布并强制跨模态相似性 - 跨模态嵌入相似性损失 \(\mathcal{L}_E\):确保文本和轨迹特征的对齐
基于 CLaTr 可计算 FD_CLaTr(类似 FID)、CLaTr-Score(类似 CLIP-Score)等评估指标。
设计动机:现有评估方法(如 CCD 使用的简单 6 类相机运动分类器)无法捕捉相机轨迹的真实复杂性,需要更鲁棒的评估工具。
训练策略¶
- 优化器:AdamW,lr=1e-4,\((\beta_1, \beta_2) = (0.9, 0.95)\),weight decay=0.1
- 学习率调度:余弦衰减 + 5K 步 warmup,共 170K 步
- 模型配置:8 层 Transformer,hidden dim=512,16 头注意力
- 输入:时序长度 300,使用 masking 处理短输入
- 精度:bfloat16 混合精度训练
实验关键数据¶
主实验¶
E.T. Mixed 子集上的轨迹生成质量对比:
| 方法 | FD_CLaTr ↓ | Precision ↑ | Coverage ↑ | CLaTr-Score ↑ | C-F1 ↑ |
|---|---|---|---|---|---|
| CCD | 35.81 | 0.73 | 0.67 | 6.26 | 0.17 |
| MDM | 6.79 | 0.78 | 0.76 | 18.32 | 0.34 |
| Director A | 3.88 | 0.82 | 0.85 | 20.76 | 0.42 |
| Director B | 6.10 | 0.78 | 0.78 | 20.78 | 0.39 |
| Director C | 3.76 | 0.83 | 0.86 | 21.95 | 0.48 |
Director C 在 FD_CLaTr 上相比 MDM 降低 3.0,相比 CCD 降低 32.1;CLaTr-Score 相比 MDM 提升 3.6,相比 CCD 提升 15.7。
E.T. Pure 子集对比:
| 方法 | FD_CLaTr ↓ | Coverage ↑ | CLaTr-Score ↑ | C-F1 ↑ |
|---|---|---|---|---|
| CCD | 31.33 | 0.72 | 3.21 | 0.27 |
| MDM | 6.10 | 0.80 | 21.26 | 0.76 |
| Director C | 4.57 | 0.87 | 21.49 | 0.80 |
| Director B | 6.61 | 0.82 | 23.10 | 0.86 |
消融实验¶
Director 架构变体对比 (E.T. mixed):
| 架构 | 条件方式 | FD_CLaTr ↓ | CLaTr-Score ↑ | C-F1 ↑ | 说明 |
|---|---|---|---|---|---|
| Director A | In-context | 3.88 | 20.76 | 0.42 | 简单高效,效果接近 C |
| Director B | AdaLN | 6.10 | 20.78 | 0.39 | 简单场景好,复杂场景差 |
| Director C | Cross-attention | 3.76 | 21.95 | 0.48 | 最佳,但参数更多 |
关键发现:AdaLN 在纯运动子集上文本-轨迹一致性最好(C-F1=0.86),但在混合运动子集上最差(0.39),说明 AdaLN 能处理简单条件但难以捕捉序列复杂性。
关键发现¶
- Director 在所有指标上全面超越 CCD 和 MDM,尤其在混合复杂轨迹上优势明显
- Cross-attention 架构最适合处理复杂的条件信号,in-context 方式是简单高效的替代
- 角色信息至关重要:相机轨迹生成需考虑与角色运动的关系
- CLaTr 评估指标的 FD-Score 权衡曲线显示 Director 始终优于 MDM
亮点与洞察¶
- 开创性的数据集贡献:E.T. 是首个同时包含相机轨迹、角色轨迹和文本描述的真实电影数据集,填补了重要空白
- 全局坐标系设计:相比 CCD 的角色中心坐标系,全局坐标系允许更丰富多样的相机-角色运动关系
- CLaTr 评估框架:为相机轨迹生成领域提供了标准化的评估工具,类似于 FID 对图像生成的贡献
- 四大定性优势清晰展示:可控性、多样性、复杂性、角色感知能力
局限与展望¶
- 轨迹描述的表达力有限:当前 caption 不包含角色在画面中的具体位置、修饰词等更精细信息
- 3D 姿态估计精度:从 2D 视频估计 3D 姿态本身有误差,可能影响数据质量
- 仅支持单角色场景:多角色交互场景的相机轨迹生成未被探索
- 缺乏与视频生成的集成:生成的是抽象 3D 轨迹,如何与视频渲染/生成系统对接有待研究
- 数据集主要来自西方电影:文化多样性和拍摄风格的覆盖面有待扩展
相关工作与启发¶
- 人体运动生成 (MDM, HumanML3D):Director 借鉴了人体运动扩散模型的架构思路,并成功迁移到相机轨迹生成
- DiT (Diffusion Transformer):三种条件注入架构直接受 DiT 启发
- CLIP/TMR:CLaTr 的对比学习框架源自图像-文本和运动-文本的对比学习范式
- SLAHMR:关键的 3D 姿态估计工具,使从真实电影中提取数据成为可能
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 数据集和方法都是首创,填补了电影摄影领域的重要空白
- 实验充分度: ⭐⭐⭐⭐ — 定量指标丰富,定性分析有力,但消融实验可以更深入(如角色条件的影响)
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,数据集从构建到应用的叙述完整
- 价值: ⭐⭐⭐⭐ — 数据集价值高,可推动电影摄影自动化,但应用场景相对小众
相关论文¶
- [ECCV 2024] Free-Viewpoint Video of Outdoor Sports Using a Flying Camera
- [ECCV 2024] Active Generation for Image Classification
- [ECCV 2024] Elegantly Written: Disentangling Writer and Character Styles for Enhancing Online Chinese Handwriting
- [ACL 2025] Map&Make: Schema Guided Text to Table Generation
- [CVPR 2026] Next-Scale Autoregressive Models for Text-to-Motion Generation