AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation¶

会议: ICCV 2025
arXiv: 2506.09982
代码: 项目主页 (有，承诺开源数据、代码和模型)
领域: 3D视觉 / 4D生成 / Mesh动画
关键词: 4D生成, 文本驱动动画, 动态Mesh, VAE, Rectified Flow

一句话总结¶

提出AnimateAnyMesh，首个前馈式文本驱动通用Mesh动画框架：通过DyMeshVAE将动态Mesh分解为初始位置和相对轨迹并压缩到潜空间，再用基于Rectified Flow的MMDiT模型学习文本条件下的轨迹分布，配合4M+规模的DyMesh数据集训练，在6秒内即可为任意拓扑Mesh生成高质量动画，全面碾压DG4D、L4GM和Animate3D。

背景与动机¶

4D内容生成（动态3D）是VR/AR和游戏领域的刚需，但现有方法存在两大痛点： 1. 逐场景优化方法（如DG4D）：依赖SDS蒸馏从视频扩散模型优化3DGS/NeRF，计算代价高（~10min/场景），且缺乏真实4D数据监督导致空间不一致 2. 多视角动态视频方法（如Animate3D、L4GM）：先生成多视角视频再重建4D，需要后处理，误差逐阶段累积，且仍依赖per-scene重建

本文的核心insight：与其直接端到端生成4D，不如利用现有丰富的高质量3D Mesh资产，将问题分解为"几何创建"和"运动建模"两步。动态Mesh作为图形管线的标准表示，渲染高效且天然解耦几何与运动。因此作者聚焦于文本驱动Mesh动画这一基础任务。

核心问题¶

如何构建一个前馈式框架，能够在几秒内根据文本描述为任意拓扑的3D Mesh生成语义对齐、时序连贯的动画序列？核心挑战在于(1)动态Mesh的高效压缩/重建，(2)文本条件下的运动分布建模，(3)大规模4D训练数据的匮乏。

方法详解¶

整体框架¶

AnimateAnyMesh由三部分组成： - DyMeshVAE：将动态Mesh序列压缩到结构化潜空间并可高质量重建 - Shape-Guided Text-to-Trajectory Model：在压缩潜空间中学习文本+Mesh形状条件下的轨迹分布 - DyMesh Dataset：4M+动态Mesh序列数据集，支撑大规模训练

推理流程：输入静态Mesh + 文本描述 → DyMeshVAE编码器提取Mesh形状特征 → Rectified Flow采样生成轨迹潜码 → DyMeshVAE解码器重建顶点轨迹 → 输出动态Mesh序列

关键设计¶

DyMeshVAE编码器 — 轨迹分解 + 拓扑感知注意力:
将顶点序列V分解为初始帧位置V₀和相对轨迹V_T（V_t = V₀ + V_T^t），这种分解使运动分布更接近零均值正态分布
对V₀和V_T使用不同的位置编码（positional encoding），将低维信息映射到高维空间以增强区分度
核心设计：从面片信息F构建邻接矩阵Adj，作为自注意力的mask，让每个顶点聚合拓扑邻居信息。这解决了空间近邻但拓扑无关的顶点（如手和腰）被混淆的问题
在增强了拓扑信息的特征上做FPS（最远点采样）采样n个token（默认512），再用交叉注意力聚合全局信息
DyMeshVAE解码器 — 基于形状特征的轨迹重建:
对采样的拓扑感知特征V₀ⁿ做自注意力，同时用得到的注意力图投影Z_Tⁿ
堆叠K个相同block，逐步增强特征
解码时，初始Mesh的完整顶点特征V₀作为query，通过交叉注意力从压缩的latent重建出完整的相对轨迹
这种设计使得训练时固定512 token，推理时可动态调整以适应不同复杂度的Mesh
Shape-Guided Text-to-Trajectory Model — MMDiT + Rectified Flow:
基于MMDiT（Multimodal DiT）架构，12个Transformer block，8头注意力
文本通过CLIP ViT-L/14编码（最大77 token）
对轨迹嵌入和文本嵌入分别用AdaLN（自适应层归一化）调制，消除模态间分布差异
拼接后做自注意力计算，输出后拆分恢复原始尺度

损失函数 / 训练策略¶

DyMeshVAE损失: L_dvae = L_rec + γ·L_kl，其中L_rec为MSE重建损失，L_kl为KL散度正则化，γ=0.001
Rectified Flow训练: 对轨迹latent Z_Tⁿ加噪，学习预测速度场，使用tangent时间步调度；CFG scale γ=3.0
DyMeshVAE: Adam优化器 lr=1e-4，1000 epochs，8×H20 GPU
Flow Model: Adam优化器 lr=2e-4，1000 epochs，32×H20 GPU
推理时64步均匀采样ODE求解
DyMesh Dataset: 66k完整动画（Objaverse ~55k + AMASS ~8k + DT4D ~2k），经过切片+增强后得到~2.6M个16帧序列 + ~1.6M个32帧序列（共4M+），由Qwen-2.5-VL生成文本标注

实验关键数据¶

方法	I2V↑	M.Sm↑	Aest.Q↑	User.Ta↑	User.Mn↑	User.Sp↑	时间
DG4D	0.811	0.926	0.476	2.130	2.460	2.755	10min
L4GM	0.844	0.992	0.464	2.885	2.865	2.835	30s
Animate3D	0.936	0.992	0.526	2.850	3.195	3.405	14min
Ours	0.954	0.995	0.539	4.505	4.700	4.790	6s

在VBench指标和用户研究上全面领先：I2V（形状保持度）+1.9%，用户文本对齐评分+58%（vs Animate3D），速度快140倍（vs DG4D）。

推理时间	5k顶点	10k顶点	20k顶点	50k顶点
时间(s)	3.95	5.99	10.68	21.86

消融实验要点¶

Adj	PE₀	PE_T	SepAttn	EmbFPS	Rec Error↓
✗	✓	✓	✓	✓	0.500
✓	✗	✓	✓	✓	0.443
✓	✓	✗	✓	✓	0.441
✓	✓	✓	✗	✓	0.478
✓	✓	✓	✓	✗	0.291
✓	✓	✓	✓	✓	0.223

邻接矩阵Adj影响最大（去掉后error从0.223→0.500），说明拓扑信息对区分不同语义区域的顶点至关重要
EmbFPS（在增强特征上做FPS而非原始坐标）贡献显著（0.291→0.223）
Scaling实验显示：增大顶点数、帧数、模型参数均能提升性能，验证良好的可扩展性（200M→740M参数时I2V从0.954→0.968）

亮点¶

首个前馈式通用Mesh动画框架：无需逐场景优化，6秒生成动画，是真正实用的方案
轨迹分解思想：将V分解为V₀+V_T，形状和运动自然解耦，运动分布更接近正态分布有利于生成模型学习
拓扑感知注意力：巧妙利用Mesh拓扑结构构建注意力mask，解决了空间近邻但语义不同的顶点混淆问题（如手和腰部粘连）
4M+规模数据集：从多源4D资产中系统构建，是目前最大的动态Mesh数据集
灵活的token数量：训练时固定512 token，推理时可动态调整以适应不同复杂度的Mesh

局限性 / 可改进方向¶

数据集多样性不足：虽然有4M+序列，但唯一Mesh身份不到100k，对特殊类别泛化有限
文本标注质量：用Qwen-2.5-VL对渲染视频生成caption，但VLM对无背景的3D渲染效果不佳，运动描述粒度粗
序列长度受限：当前仅支持16/32帧生成，无法产生长时间动画
无物理约束：生成的运动没有物理合理性保证（如穿透、非刚体变形不合理）
评估局限：只在10个测试样本上定量比较，测试集规模较小

与相关工作的对比¶

vs DG4D (SDS蒸馏): DG4D依赖视频扩散模型的SDS优化3DGS，10分钟/场景，形状保持差，严重物体漂移。AnimateAnyMesh直接在Mesh顶点空间预测轨迹，6秒完成且几何细节更好
vs Animate3D (多视角视频+ARAP优化): Animate3D管线复杂（Mesh→GS→多视角视频→ARAP优化），14分钟/场景，误差层层累积。AnimateAnyMesh是端到端前馈，质量和效率全面领先
vs L4GM (单视角视频重建): L4GM受限于视频生成器质量，对无背景的3D物体渲染效果差，30秒但用户评分低。AnimateAnyMesh在潜空间直接建模运动分布，不依赖视频生成

启发与关联¶

与TTT for 4D Dynamics的关联：AnimateAnyMesh生成的动画仅限于16/32帧，而TTT-4D ideas提到通过测试时训练外推4D动力学到更长时间。一个自然的扩展是将AnimateAnyMesh生成的短序列作为初始条件，用TTT策略在线外推到更长的动画序列
与4D场景编辑的关联：AnimateAnyMesh关注动画生成，而4D编辑关注已有动态场景的文本引导修改。两者可互补——先用AnimateAnyMesh生成动画，再用4D编辑方法精细调整
Feed-forward范式的延伸：本文证明了前馈式4D生成的可行性，其DyMeshVAE中拓扑感知压缩的思想可迁移到其他需要处理不规则拓扑结构的任务（如分子动力学、布料模拟）

评分¶

新颖性: ⭐⭐⭐⭐ 首个前馈式通用Mesh动画框架，DyMeshVAE中的轨迹分解+拓扑感知注意力设计有新意；但Rectified Flow + MMDiT的组合在生成模型领域已成熟
实验充分度: ⭐⭐⭐⭐ 消融实验详尽（5个组件 + FPS比例 + Scaling），但定量比较只用了10个测试样本，对比方法仅3个
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，动机阐述充分，技术细节完整，图表丰富且信息量大
价值: ⭐⭐⭐⭐⭐ 4M+数据集 + 首个实用的前馈4D框架，对4D内容创作领域有标杆性贡献；承诺全部开源进一步提升价值