4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video¶

会议: CVPR 2026
arXiv: 2603.10125
代码: https://luoxue-star.github.io/4DEquine_Project_Page/
领域: 3D视觉 / 动态重建 / 动物建模
关键词: 4D重建, 3DGS, 运动解耦, 外观解耦, 单目视频, VAREN

一句话总结¶

将马科动物4D重建解耦为运动估计(AniMoFormer时空Transformer+后优化)和外观重建(EquineGS前馈3DGS)两个子任务，用VAREN参数化模型做桥梁，仅在合成数据(VarenPoser+VarenTex)上训练即在真实数据APT-36K和AiM上达到SOTA，并能零样本泛化到斑马和驴。

背景与动机¶

从单目视频重建马科动物的4D形态（几何+运动+外观）在畜牧、运动分析、动物福利等领域很有价值。现有方法存在两类核心瓶颈：(1) 通用4D重建方法（如Monst3R、Page-4D）无法从不完整观测中恢复物体的完整几何；(2) 基于SMAL模板的优化方法（GART、4D-Fauna等）需要对逐个视频做联合优化，计算昂贵且要求接近360°覆盖的视频捕获——这在真实世界场景中几乎不可能满足。需要一种既高效又能处理稀疏视角的方案。

核心问题¶

如何从普通的单目视频（非360°环绕拍摄）中高效地重建马科动物的4D表征（几何+运动+外观），同时避免逐视频的昂贵优化？核心挑战在于运动和外观的联合优化既复杂又对视角覆盖敏感。

方法详解¶

整体框架¶

将4D重建分解为两个独立子任务：运动估计（AniMoFormer：时空Transformer + 后优化 → 输出VAREN参数序列）和外观重建（EquineGS：前馈网络从单张图像 → 输出canonical 3DGS化身）。VAREN参数化马体模型作为桥梁连接两者——运动给出每帧的姿态/形状参数，外观在canonical空间生成Gaussian点云，通过LBS变形到每帧姿态。

关键设计¶

AniMoFormer（运动估计）: 两阶段设计。第一阶段是时空Transformer——先用Spatial Transformer（ViT-H backbone, 来自AniMer预训练）逐帧提取特征，再用Temporal Transformer在16帧窗口上做self-attention建模时序关系，回归VAREN的姿态/形状/相机参数。第二阶段是Post-Optimization——用可微渲染器将3D mesh投影到2D，与ViTPose++检测的2D关键点和Samurai提取的mask做对齐优化（分两步：先优化全部参数偏重关键点对齐，再冻结姿态偏重mask对齐）。
EquineGS（外观重建）: 前馈网络，从单张图像生成可动画的canonical 3DGS化身。先用VAREN模板mesh做细分（13873→55486顶点）作为Gaussian初始化位置；然后双流特征提取——DINOv3 ViT-L提取图像特征，Point Transformer编码3D点特征；最后用DSTG（Dual-Stream Transformer Gaussian）decoder融合两路特征，预测每个Gaussian的位移、旋转、缩放、颜色和不透明度。
合成数据集创建: VarenPoser（运动训练用）——将VAREN模型拟合到PFERD马动捕数据，用MV-Adapter生成纹理，模拟三种相机轨迹（固定/环绕/推拉），共1171个视频片段。VarenTex（外观训练用）——用UniTex多视角扩散模型生成一致多视图图像，共150K张，提供比VarenPoser更高质量的外观。

损失函数 / 训练策略¶

AniMoFormer训练损失: \(\mathcal{L} = \lambda_{varen}\mathcal{L}_{varen} + \lambda_{smooth}\mathcal{L}_{smooth} + \lambda_{2D}\mathcal{L}_{2D} + \lambda_{3D}\mathcal{L}_{3D}\)，其中smooth项约束相邻帧参数变化
后优化损失: \(\mathcal{L} = \lambda_{2D}\mathcal{L}_{2D} + \lambda_{smooth}\mathcal{L}_{smooth} + \lambda_{reg}\mathcal{L}_{reg} + \lambda_{mask}\mathcal{L}_{mask}\)，分两阶段分别侧重关键点和mask
EquineGS训练损失: \(\mathcal{L} = \lambda_{image}(\|L1\| + LPIPS) + \lambda_{mask}\mathcal{L}_{mask} + \lambda_{reg}\mathcal{L}_{reg}\)
AniMoFormer在单张4090上训练10小时(100K步)；EquineGS在8×4090上训练3天(100K步)
推理速度: 11秒/帧（A100），对比GART固定15分钟/视频

实验关键数据¶

数据集	指标	4DEquine	之前SOTA(AniMer)	提升
APT-36K	PCK@0.05	61.8	44.5	+38.9%
APT-36K	PCK@0.1	83.9	76.6	+9.5%
AiM	PCK@0.05	84.2	55.5	+51.7%
AiM	Accel↓	21.8	26.2	-16.8%
VarenPoser	CD↓	3.4	15.2	-77.6%

数据集	指标	4DEquine	GART(全优化)	Few-shot GART
AiM-Horse	SSIM↑	0.8364	0.7819	0.7550
AiM-Horse	LPIPS↓	0.1720	0.2308	0.2452
AiM-Zebra(零样本)	PSNR↑	15.54	15.21	14.31
AiM-Zebra(零样本)	LPIPS↓	0.2000	0.2287	0.2973

消融实验要点¶

去掉后优化(PO): PCK@0.05降至37.7(APT-36K)，渲染质量LPIPS从0.172→0.217——PO是像素对齐的关键
去掉时空Transformer: 加速误差Accel明显升高——时序建模对运动平滑性贡献最大
去掉mesh细分(SubDiv): PSNR略高但可视化充满孔洞——低分辨率点云不足以形成连续表面
DSTG vs 标准Cross-Attention: DSTG在SSIM/LPIPS上一致更优——双流融合优于单向cross-attention
窗口大小N: 4→8→16帧性能持续提升，N=32 OOM

亮点¶

解耦思路优雅: 将4D重建拆成运动和外观，用参数化模型VAREN做桥梁，各自独立训练和推理
纯合成数据训练，零样本泛化到真实数据和未见物种（驴、斑马）——说明合成数据+好的参数化先验可以弥合域差距
前馈外观重建只需单张图像，避免了GART等方法需要多帧优化的瓶颈
后优化作为可选后处理步骤的两阶段设计（先对齐关键点再对齐mask）值得借鉴

局限性 / 可改进方向¶

VAREN模型本身不能很好地表示尾巴和鬃毛的物理形态，限制了这些区域的重建质量
不能处理动态光照变化
EquineGS仅用单帧输入，对严重遮挡/截断的输入帧会失败——未来可融合多关键帧
仅限马科动物，泛化到猫狗等其他四足动物需要相应的参数化模型
训练成本不低（8×4090训练3天），不适合资源受限场景

与相关工作的对比¶

vs GART (CVPR 2024): GART是逐视频优化的方法，需要较好的视角覆盖，每个视频固定15分钟优化；4DEquine是前馈方法，单帧11秒推理。GART在PSNR上略优(16.19 vs 15.66)但感知指标(SSIM/LPIPS)不如4DEquine，在零样本斑马场景上全面落后
vs 4D-Fauna (ICCV 2025): 4D-Fauna是无模板的通用方法，可重建100+种四足动物但缺乏几何精度；4DEquine利用VAREN先验获得更高几何保真度，但仅限马科
vs AniMer: 单帧估计方法，无时序建模导致运动抖动严重；4DEquine的时空Transformer在PCK@0.05上提升39-52%

启发与关联¶

解耦+参数化先验的思路可以推广到其他有参数化模型的领域（人体SMPL、手部MANO等）
合成数据训练→真实数据泛化的pipeline（MV-Adapter生成纹理 + UniTex生成多视图）是一个通用方案
与我的研究方向关联较弱，该工作聚焦于特定动物重建的垂直应用

评分¶

新颖性: ⭐⭐⭐⭐ 解耦运动和外观的思路清晰，但各个模块（时空Transformer、3DGS前馈）不算全新
实验充分度: ⭐⭐⭐⭐⭐ 多数据集+多baseline+详细消融+零样本泛化+失败案例分析，非常完整
写作质量: ⭐⭐⭐⭐ 结构清晰，但论文较长，supplementary内容丰富
价值: ⭐⭐⭐ 在马科动物重建领域有实际价值，但应用面相对窄