Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation¶

会议: CVPR 2025
arXiv: 2501.03059
代码: https://guyyariv.github.io/TTM/
领域: 视频理解 / 扩散模型
关键词: 图像到视频生成, 运动轨迹, 语义分割掩码, 组合式生成, 多物体场景

一句话总结¶

本文提出 Through-The-Mask（TTM），一种两阶段组合式 I2V 框架，以基于掩码的运动轨迹（mask-based motion trajectory）作为中间表示，将图像到视频的生成分解为"运动生成"和"视频生成"两个阶段，在多物体复杂运动场景中取得SOTA效果。

研究背景与动机¶

领域现状：图像到视频（I2V）生成旨在根据文本描述将静态图像转化为视频。当前方法（如 DynamiCrafter、ConsistI2V、AnimateAnything）已能生成逼真的输出，但在多物体场景和复杂运动交互方面仍然困难。

现有痛点：端到端的 I2V 模型需要同时隐式推理物体语义、运动和外观，随着物体数量增加，可能的运动和交互组合急剧增长，使单一模型难以准确生成。Motion-I2V 提出用光流作为中间表示的两阶段方案，但光流存在三个问题：(1) 只表示运动不表示语义；(2) 逐像素运动预测对 I2V 来说过于冗余；(3) 第一阶段的像素级预测错误会严重影响第二阶段。

核心矛盾：中间表示需要同时满足三个性质：表达运动和语义、表示物体间交互、对信号波动具有鲁棒性。光流只满足第一项且粒度过细，需要一种更合适的中间表示。

本文目标：设计一种既紧凑又富有表达力的中间表示，能在物体级别捕获运动和语义信息，减少第一阶段的预测难度并提高对误差的鲁棒性。

切入角度：作者认为「时间一致的逐帧语义分割掩码」（即 mask-based motion trajectory）是理想的中间表示——它天然包含语义信息（每个物体一种颜色），运动信息（掩码随时间移动），且在物体级别操作，对像素级波动具有鲁棒性。

核心 idea：用分割掩码的时序序列作为运动的中间表示，第一阶段生成掩码运动轨迹，第二阶段基于掩码轨迹+物体级注意力机制生成最终视频。

方法详解¶

整体框架¶

输入为参考图像 \(x^{(0)}\) 和文本提示 \(c\)。预处理阶段用 LLM 提取运动描述 \(c_{motion}\) 和物体级文本提示 \(c_{local}\)，用 Grounding DINO + SAM2 生成初始分割掩码 \(s^{(0)}\)。第一阶段（Image-to-Motion）根据参考图像、初始掩码和运动提示生成掩码轨迹序列 \(\hat{s}\)。第二阶段（Motion-to-Video）根据参考图像、掩码轨迹、全局文本和物体级文本生成最终视频 \(\hat{x}\)。

关键设计¶

掩码运动轨迹作为中间表示（Mask-based Motion Trajectory）:
- 功能：在运动生成和视频生成之间建立显式的中间表示，将复杂的 I2V 问题分解为两个更简单的子问题。
- 核心思路：每个物体在掩码中用固定颜色表示，掩码序列 \(s = \{s^{(0)}, ..., s^{(N)}\}\) 捕获了每个物体的运动轨迹和语义身份。第一阶段在 VAE 隐空间中基于 LDM 生成掩码序列，将参考图像 \(x^{(0)}\) 和初始掩码 \(s^{(0)}\) 的编码沿通道维度拼接作为条件。
- 设计动机：与光流相比，掩码轨迹在物体级别操作，第一阶段只需预测物体的粗粒度运动（位移、变形、遮挡），而非每个像素的精确运动，大幅降低了预测难度。即使掩码预测存在小误差，也不会像光流那样导致严重的像素级扭曲。
掩码交叉注意力（Masked Cross-Attention）:
- 功能：将物体级别的文本描述注入到对应的 latent 空间区域，实现空间精准的语义控制。
- 核心思路：对 \(L\) 个物体的文本描述编码为 \(\{e^{(i)}\}_{i=1}^L\)，将所有 key 和 value 拼接，构建二值掩码 \(M_{cross} = [M^{(1)}; ...; M^{(L)}]\) 指示每个位置属于哪个物体。注意力计算为 \(h_{cross} = \sigma(\frac{qk^T}{\sqrt{d}} + \log M_{cross}) v\)，使得每个 latent 位置只关注对应物体的文本描述。扩展了图像生成中的 Dense Diffusion 方法到视频生成设置。
- 设计动机：全局文本提示无法区分多个物体的不同运动和外观，需要物体级别的精细控制。掩码轨迹天然提供了物体的空间位置信息，可以用于构建交叉注意力掩码。
掩码自注意力（Masked Self-Attention）:
- 功能：确保同一物体在不同帧之间保持一致性，防止不同物体之间的特征干扰。
- 核心思路：构建自注意力掩码 \(M_{self} \in \{0,1\}^{N_{tokens} \times N_{tokens}}\)，当位置 \(i\) 和 \(j\) 属于同一物体时 \(M_{self}^{(i,j)} = 1\)，否则为 \(0\)。注意力计算为 \(h_{self} = \sigma(\frac{qk^T}{\sqrt{d}} + \log M_{self}) v\)。这确保了每个 token 只关注同一物体在所有帧中的位置。
- 设计动机：标准自注意力会让不同物体的特征互相干扰，特别是在物体交叉或遮挡时。按物体分组的自注意力保证了每个物体的时序一致性。

损失函数 / 训练策略¶

两个阶段独立训练，均使用 LDM 的标准去噪损失。推理时两阶段串联。数据预处理需要 LLM（提取运动和物体描述）、Grounding DINO（物体检测）和 SAM2（视频分割），这些工具仅在训练数据预处理时使用。掩码注意力机制仅在前 \(K\) 个 block 中使用。

实验关键数据¶

主实验¶

在单物体和多物体 I2V 基准上与 SOTA 方法对比（SA-V-128 benchmark）：

方法	FVD↓(单物体)	ViCLIP-T↑	CF↑	FVD↓(多物体)	ViCLIP-T↑	Motion↑
VideoCrafter	1484.18	0.209	0.966	1413.83	0.208	84.3
DynamiCrafter	1442.48	0.214	0.942	-	-	-
ConsistI2V	-	-	-	-	-	-
AnimateAnything	-	-	-	-	-	-
Motion-I2V（光流）	-	-	-	-	-	-
TTM (Ours)	最优	最优	最优	最优	最优	最优

消融实验¶

配置	FVD↓	ViCLIP-T↑	Motion↑	Quality↑
无中间表示（端到端）	较高	较低	较低	中等
光流作为中间表示	中等	中等	中等	中等
掩码轨迹（完整）	最低	最高	最高	最高
w/o masked cross-attn	上升	下降	-	下降
w/o masked self-attn	上升	-	下降	下降

关键发现¶

掩码轨迹作为中间表示相比光流在所有指标上更优，验证了物体级表示优于像素级表示的假设
掩码交叉注意力对文本忠实度贡献最大——确保每个物体遵循各自的文本描述
掩码自注意力对时序一致性贡献最大——限制跨物体的特征干扰
多物体场景下优势更加明显，因为组合式方法将复杂问题分解为可管理的子问题

亮点与洞察¶

中间表示的选择至关重要：论文清楚地论证了好的中间表示应满足三个性质（语义+运动、物体交互、鲁棒性），并说明为什么掩码轨迹比光流更合适——这是一个可迁移到其他任务分解问题的分析框架
物体级注意力机制：将 Dense Diffusion 的图像级 masked attention 扩展到视频设置，同时引入 masked self-attention 保持时序一致性，这两者的组合非常自然且有效
与架构无关：方法同时适用于 U-Net 和 DiT 架构，具有广泛的适用性

局限与展望¶

数据预处理依赖 LLM + Grounding DINO + SAM2 的 pipeline，引入了额外的复杂性和潜在错误
两阶段推理速度慢于端到端方法
掩码轨迹无法表示非刚体的精细变形（如表情变化、织物褶皱），这些仍需第二阶段从数据中学习
当物体被完全遮挡或新物体出现时，掩码轨迹的表达能力受限

评分¶

新颖性: ⭐⭐⭐⭐ 掩码轨迹作为中间表示的想法直觉且有效，masked self-attention 是新贡献
实验充分度: ⭐⭐⭐⭐ 提出新 benchmark SA-V-128，多维度对比和消融充分
写作质量: ⭐⭐⭐⭐ 问题动机论证清晰，方法描述严谨
价值: ⭐⭐⭐⭐ 为多物体 I2V 生成提供了有效方案，组合式思路可启发更多工作