ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion¶

会议: CVPR 2026
arXiv: 2601.16148
代码: 项目页 (有)
领域: 3D视觉 / 4D生成
关键词: 动画3D网格生成, 时序3D扩散, 拓扑一致, 免绑定, 前馈式

一句话总结¶

提出 ActionMesh，通过最小化扩展预训练3D扩散模型增加时间轴（时序3D扩散），再用时序3D自编码器将独立形状序列转为拓扑一致的动画网格，仅2分钟即可从视频/文本/3D网格等多种输入生成产品级动画3D网格，在几何精度和时间一致性上均达SOTA。

领域现状：自动生成动画3D物体是游戏/影视/AR-VR的核心需求，但现有方法存在三大限制。

现有痛点： - 输入受限：大多绑定特定输入模态和物体类别 - 速度慢：依赖30-45分钟的逐场景优化（DreamMesh4D, V2M4, LIM） - 质量不足：不达产品标准（如Gaussian Splatting无固定拓扑、无法纹理映射）

核心矛盾：如何在保持高质量的同时实现快速、拓扑一致的4D生成？

关键insight：从早期视频模型获得启发——可以最小化地扩展预训练3D扩散模型加入时间轴，复用强大的3D先验来弥补4D动画数据的匮乏。

核心idea：分离"3D生成"和"动画预测"——先生成同步的独立3D形状序列，再将其转化为参考网格的变形。

Stage I：输入视频 → 参考帧用image-to-3D得到参考网格 → 时序3D扩散模型生成同步的4D网格（无拓扑一致性） Stage II：时序3D自编码器 → 将独立网格序列转为参考网格的逐帧顶点偏移 → 拓扑一致的动画3D网格

时序3D扩散模型（Stage I）：基于 3DShape2VecSet/TripoSG 的3D latent 扩散框架，做两个最小修改：
- 膨胀注意力（Inflated Attention）：将自注意力层扩展为跨帧注意力，使所有帧的token互相attend： \(\text{infattn}(\mathbf{X}) = \text{reshape}^{-1}(\text{selfattn}(\text{reshape}(\mathbf{X})))\) reshape将 \(N \times T \times D\) 展平为 \(1 \times NT \times D\)。添加旋转位置编码（RoPE）注入帧间相对位置信息以减少抖动。
- 掩码生成（Masked Generation）：训练时随机保持部分latent无噪声（flow step设为0），推理时可固定已知3D形状的latent。
- 设计动机：借鉴 MVDream 的多视角生成思路；膨胀注意力复用预训练权重，仅需微调；掩码生成使模型可接受已知3D网格约束。
时序3D自编码器（Stage II）：
- 编码器：冻结的3D编码器 \(\mathcal{E}_{\text{3D}}\) 独立编码各帧点云得到 latent 序列
- 解码器 \(\mathcal{D}_{\text{4D}}\)：接收整个 latent 序列，输出参考网格顶点到目标时间步的位移场
- 查询点为参考网格顶点位置 + 法线（法线帮助消歧拓扑上远但空间近的点）
- 时间步对 \((t_i, t_j)\) 通过傅里叶编码注入作为额外token
- 同样使用膨胀注意力 + RoPE确保跨帧一致性
- 设计动机：将"独立网格序列 → 变形场"这一传统优化问题转为前馈推理

方法	推理时间	CD-3D↓	CD-4D↓	CD-M↓
DreamMesh4D	35min	0.104	0.152	0.265
LIM	15min	0.089	0.126	0.243
V2M4	35min	0.068	0.340	0.616
ShapeGen4D	15min	0.056	0.170	0.348
TripoSG (逐帧)	2min	0.056	0.184	-
ActionMesh	2min	0.053	0.081	0.148

配置	CD-3D↓	CD-4D↓	CD-M↓	说明
完整模型	0.050	0.069	0.137	最优
无 Stage II	0.050	0.069	-	Stage II保持3D质量
无 Stage I & II	0.050	0.187	-	Stage I是4D关键
Craftsman骨干	0.072	0.117	0.216	框架对骨干不敏感

CD-4D 改善35%（0.081 vs 0.126），CD-M 改善39%（0.148 vs 0.243），速度快10倍
逐帧 TripoSG 的 CD-3D 与 ActionMesh 相当（0.056 vs 0.053），但 CD-4D 大幅落后（0.184 vs 0.081），证明时序一致性是关键贡献
Stage II 不损害3D质量（CD-3D不变），同时提供拓扑一致性
可在 DAVIS 真实视频上工作，仅在合成数据上训练但泛化良好
运动迁移能力突出：可将鸟的飞行运动转移给龙