Articulated Kinematics Distillation from Video Diffusion Models¶
会议: CVPR 2025
arXiv: 2504.01204
代码: 项目页
领域: 视频生成 / 3D动画
关键词: 关节动画, 运动蒸馏, 视频扩散模型, SDS优化, 物理仿真
一句话总结¶
本文提出AKD框架,通过骨骼关节参数化将3D资产的运动自由度从全空间降维到少量关节角度,再利用视频扩散模型(CogVideoX)的SDS梯度蒸馏出文本对齐的关节运动序列,并可通过物理仿真进一步确保物理合理性。
研究背景与动机¶
领域现状:文本到4D生成(text-to-4D)是新兴方向,现有方法如TC4D使用神经变形场(neural deformation field)预测每个空间点的位移来变形3D形状。视频扩散模型(如CogVideoX-5B)包含丰富的运动先验。
现有痛点:神经变形场引入了巨大的自由度(每个空间-时间位置都可以独立变形),导致优化困难、局部结构不一致(如肢体数量改变)、物理不合理(如脚部滑动和地面穿透)。这些方法也与物理仿真不兼容。
核心矛盾:视频扩散模型蕴含丰富的运动知识,但text-to-4D方法用过高的自由度来参数化运动,使得SDS优化在正确结构和合理运动上都难以收敛。
本文目标:结合传统骨骼动画的低自由度控制与视频生成模型的运动知识,实现结构一致、物理合理的3D角色动画。
切入角度:传统CG流水线中骨骼驱动动画已非常成熟——自由度低(只有关节角度)、结构稳定(骨骼保持形状)、兼容物理仿真。
核心 idea:用骨骼关节角度作为优化变量(而非全空间变形场),通过可微的前向运动学+3DGS渲染+视频SDS蒸馏运动序列。
方法详解¶
整体框架¶
给定rigged 3D资产(text-to-3D生成后手动添加骨骼),将其转为Mesh-3DGS双重表示。优化变量为每帧每关节的3D角度向量。通过前向运动学计算骨骼变换,LBS蒙皮驱动3DGS变形,可微光栅化渲染为视频序列,输入视频扩散模型计算SDS梯度反传至关节角度。
关键设计¶
-
骨骼参数化的低自由度运动表示:
- 功能:将运动优化空间从全空间缩减到关节角度
- 核心思路:每帧F个时刻,每个关节3自由度(球关节),加上根节点6自由度刚体变换。总优化变量 \(\Theta = \{\{A_i^j\}_{j=1}^{B-1}, T_i\}_{i=0}^{F-1}\)。通过Forward Kinematics计算每根骨骼的变换矩阵,再用LBS蒙皮将变换传递到3DGS核心
- 设计动机:与全空间变形场的百万级自由度相比,骨骼参数化可能只有几百个变量,极大简化优化。骨骼约束天然保持了形状一致性(肢体长度不变、关节连接稳定)
-
棋盘格地面渲染:
- 功能:为SDS蒸馏提供角色与地面交互的物理线索
- 核心思路:渲染一个棋盘格图案的地面作为背景层,与3DGS资产的渲染混合。地面以下的GS核心透明度设为零处理遮挡
- 设计动机:纯色背景无法给视频模型提供角色与地面的相对运动参考,棋盘格图案帮助减少footskating和浮空问题
-
物理仿真运动追踪:
- 功能:将蒸馏后的运动投影到物理可行解空间
- 核心思路:将骨骼部署到关节刚体模拟器中,在重力和地面碰撞下运行。使用PD控制器提供关节力矩,优化控制序列 \(\hat\Theta\) 使模拟轨迹尽可能接近蒸馏轨迹。采用细粒度梯度裁剪解决长序列反向传播的梯度爆炸
- 设计动机:纯运动学蒸馏可能产生物理不合理的运动(如地面穿透),物理仿真追踪作为后处理确保接触合理性
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{SDS} + \lambda_1 \mathcal{L}_{smooth} + \lambda_2 \mathcal{L}_{ground}\)。其中 \(\mathcal{L}_{smooth}\) 为关节角度的Laplacian时间平滑正则,\(\mathcal{L}_{ground}\) 为地面穿透惩罚。10000次SDS迭代,约25小时/资产。
实验关键数据¶
主实验(与TC4D对比,视频质量评估)¶
| 方法 | SA语义对齐↑ | PC物理常识↑ |
|---|---|---|
| TC4D | 0.40±0.34 | 0.31±0.15 |
| AKD(Ours) | 0.52±0.33 | 0.38±0.16 |
用户研究(20名评估者)¶
| 评估维度 | AKD优于TC4D比例 |
|---|---|
| 运动量(MA) | 显著优于 |
| 物理合理性(PP) | 显著优于 |
| 文本对齐(TA) | 略优 |
关键发现¶
- AKD生成的运动比TC4D有更好的3D一致性和更丰富的运动表达
- TC4D经常产生模糊伪影和缺少交替腿部运动(如宇航员行走),AKD在这些方面表现良好
- 棋盘格地面对减少footskating贡献显著
- 物理仿真追踪进一步消除了地面穿透和浮空问题
亮点与洞察¶
- 将传统CG的骨骼动画流水线与视频扩散模型先验结合是非常自然但此前未被探索的方向。低自由度既是正则化也是加速
- 棋盘格地面的简单trick对物理真实感有意外大的贡献——为视频扩散模型提供了相对运动参考
- 物理仿真追踪的后处理步骤使得生成的运动可以直接用于物理引擎中
局限与展望¶
- 需要手动rigging(虽然只需几分钟),不是全自动流水线
- 运动受骨骼结构限制,难以表达非刚性变形(如布料飘动)
- SDS优化慢(25小时/资产),实时应用不现实
- 可考虑自动rigging方法和更快的SDS替代方案
相关工作与启发¶
- vs TC4D(神经变形场): TC4D自由度过高导致结构不一致;AKD的骨骼参数化天然保持结构
- vs PhysDreamer/PhysGaussian: 这些方法关注体积固体/流体变形(MPM模拟),AKD聚焦关节运动(刚体模拟),各自适用不同场景
- vs Ponymation: Ponymation从视频学习运动VAE,需要特定类别数据;AKD利用通用视频扩散模型先验
评分¶
- 新颖性: ⭐⭐⭐⭐ 骨骼动画+视频SDS的组合自然且有效
- 实验充分度: ⭐⭐⭐⭐ 自动指标+用户研究,29个测试资产
- 写作质量: ⭐⭐⭐⭐ 流水线清晰,物理仿真部分详实
- 价值: ⭐⭐⭐⭐ 连接CG动画产业和AI生成模型
相关论文¶
- [CVPR 2025] InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
- [ICCV 2025] V.I.P.: Iterative Online Preference Distillation for Efficient Video Diffusion Models
- [CVPR 2025] StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
- [CVPR 2025] VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
- [CVPR 2025] From Slow Bidirectional to Fast Autoregressive Video Diffusion Models