PoseTraj: Pose-Aware Trajectory Control in Video Diffusion¶

会议: CVPR 2025
arXiv: 2503.16068
代码: 项目主页
领域: 目标检测/视频生成
关键词: 轨迹引导视频生成, 6D姿态感知, 合成数据预训练, 相机运动解耦, 3D包围盒监督

一句话总结¶

提出 PoseTraj，一个姿态感知的轨迹引导视频生成模型，通过两阶段姿态感知预训练（利用合成数据集 PoseTraj-10K 和3D包围盒中间监督）和相机运动解耦微调，实现从2D轨迹生成3D对齐的旋转运动视频。

研究背景与动机¶

轨迹引导视频生成因其交互友好性受到广泛关注，但现有模型难以处理涉及6D姿态变化（特别是大角度旋转）的物体运动
DragNUWA 和 DragAnything 等方法仅在2D图像空间约束物体跟随轨迹，未考虑物体姿态的变化
旋转轨迹在真实视频数据中稀少且难以自动标注，模型缺乏3D理解能力
从2D轨迹推断潜在旋转本质上是一个不适定问题
真实视频中相机运动和物体运动耦合，难以准确分离
现有方法在大角度旋转场景下容易出现物体实体崩塌（entity collapse）
现有评估数据集缺乏包含旋转轨迹的精确3D标注
SVD等预训练模型对旋转运动的理解不足

方法详解¶

整体框架¶

PoseTraj 基于 Stable Video Diffusion（SVD）构建，包含三个训练阶段：第一阶段在合成数据集 PoseTraj-10K 上进行3D包围盒引导预训练（同时生成物体和3D bbox）；第二阶段去除bbox监督，专注于物体外观细节；第三阶段在真实视频（VIPSeg）上进行相机运动解耦微调。推理时用户自由绘制轨迹，模型生成姿态感知的视频。核心模块 Traj-ControlNet 是 SVD 编码器块的可训练副本，接收轨迹特征并预测残差特征。

关键设计¶

设计一：两阶段姿态感知预训练 - 功能：让模型感知2D轨迹中潜在的3D旋转变化 - 核心思路：第一阶段将3D包围盒渲染到像素空间与物体一起生成，bbox提供位置和姿态信息作为中间监督；第二阶段去除bbox，微调模型专注外观细节。采用"注入式重建"（injection-by-reconstruction），即直接将bbox作为重建目标而非输入条件 - 设计动机：直接回归3D参数困难，而将bbox生成到图像空间可以利用扩散模型的像素级重建能力，增强连续3D感知；且第二阶段可简单更换重建目标来移除bbox，避免推理时的信号不匹配

设计二：PoseTraj-10K 合成数据集 - 功能：提供包含旋转轨迹和精确3D包围盒标注的大规模训练数据 - 核心思路：从Objaverse采样2000个高质量3D模型（GPT-4v筛选+人工选择），在Blender中为每个模型生成5条随机旋转轨迹，渲染10000个视频（14帧，5fps，\(320\times576\)） - 设计动机：真实视频中旋转运动稀少且难以标注6D姿态，合成数据提供精确轨迹和3D bbox标注，避免相机运动干扰

设计三：相机运动解耦微调 + 空间增强损失 - 功能：增强从合成到真实的泛化能力，分离物体运动和相机运动 - 核心思路：在VIPSeg上微调时引入相机外参作为额外输入（通过MLP编码后与轨迹特征拼接），训练时50%概率随机丢弃相机信息。空间增强损失 \(\mathcal{L}_{\text{SPA}}\) 随机采样单帧轨迹进行图像重建，仅更新空间层 - 设计动机：合成数据中相机静止，真实视频中相机运动不可预测；空间增强损失解决大角度旋转下物体实体崩塌的问题

损失函数¶

总损失 \(\mathcal{L}_{\text{all}} = \mathcal{L}_{\text{MSE}} + \lambda_{\text{SPA}}\mathcal{L}_{\text{SPA}}\)。其中 \(\mathcal{L}_{\text{MSE}}\) 为标准视频扩散去噪损失（不同阶段条件不同），\(\mathcal{L}_{\text{SPA}}\) 为单帧空间重建损失，反向传播只更新空间层。

实验关键数据¶

主实验：轨迹引导视频生成比较¶

方法	VIPSeg 320×576 ObjMC↓	FID↓	FVD↓	DAVIS ObjMC↓	FVD↓
DragNUWA 1.5	133.05	41.88	289.15	74.07	952.87
DragAnything	91.12	39.29	275.93	47.01	771.78
PoseTraj	77.48	38.41	267.33	29.92	729.16

消融实验：预训练设计影响¶

变体	ObjMC↓	FID↓	FVD↓
Full method	77.48	38.41	267.33
No bbox stage	81.36	41.90	275.40
No pretrain	145.72	42.62	486.84
No Cam-disen	83.22	39.71	279.15
No SPA-loss	137.26	39.79	436.56

关键发现¶

PoseTraj在VIPSeg上轨迹精度（ObjMC）较DragAnything提升15%，DAVIS上提升36%
去除两阶段预训练后ObjMC退化至145.72（+88%），空间增强损失同样关键（+77%退化）
3D bbox预训练主要影响物体姿态定位的视觉准确性，定量指标上影响相对较小
用户评估中PoseTraj在轨迹跟随准确度和视觉质量上分别获43%和39%更多投票

亮点与洞察¶

合成数据+3D bbox中间监督的预训练策略：巧妙利用合成数据解决真实视频中旋转标注稀缺的问题
注入式重建范式：将3D信息作为重建目标而非输入条件，训练后可无缝切换
空间增强损失：通过单帧子任务显著改善大角度旋转下的物体保持能力
OOD泛化能力强：未在DAVIS上训练但用于评估，表现优异

局限与展望¶

合成数据中的物体种类（2000个）和渲染质量仍有局限
对于非刚体变形（如人体运动）的旋转控制尚未验证
相机运动解耦模块在推理时不使用相机位姿，可能限制其效果
未来可探索基于DiT架构（如Tora）的姿态感知扩展

评分¶

⭐⭐⭐⭐ — 预训练策略设计合理有效，合成数据+3D bbox中间监督是亮点；但旋转场景的实际应用需求相对小众。