MEGA: Masked Generative Autoencoder for Human Mesh Recovery¶

会议: CVPR 2025
arXiv: 2405.18839
代码: https://g-fiche.github.io/research-pages/mega/ (项目页)
领域: 3D视觉
关键词: 人体网格恢复, 遮掩生成建模, 多输出预测, 自监督预训练, VQ-VAE

一句话总结¶

MEGA 提出了一种基于遮掩生成建模的人体网格恢复方法，通过将人体 mesh 离散化为 token 序列，在自监督预训练后进行图像条件生成，同时支持确定性单次预测和随机多输出生成模式，在两种模式下均达到 SOTA 性能。

研究背景与动机¶

领域现状：从单张 RGB 图像恢复 3D 人体网格（HMR）是经典的计算机视觉问题。当前方法主要分为两类：(1) 单输出回归方法（HMR、CLIFF、VQ-HPS 等），直接预测一个最可能的 mesh；(2) 多输出概率方法（ProHMR、Diff-HMR 等），生成多个可能的 mesh 来应对深度模糊性。

现有痛点：HMR 本质上是一个病态问题——无穷多个 3D 解释可以对应同一个 2D 观测，特别是在遮挡场景下更为严重。单输出方法忽视了这种模糊性，倾向于预测最常见的姿态。多输出概率方法虽然可以生成多样预测，但面临精度-多样性的权衡——没有一个多输出方法能在单次预测精度上与最新的单输出方法竞争。

核心矛盾：多样性和精度之间的 trade-off：增加预测多样性通常以牺牲单次预测精度为代价。

本文目标 能否设计一个统一框架，在确定性模式下达到 SOTA 单次精度，在随机模式下生成多样且高质量的多输出预测？

切入角度：借鉴 NLP 和图像生成中遮掩生成建模的成功，将 HMR 重新定义为离散 token 序列的条件生成问题。通过 Mesh-VQ-VAE 将人体 mesh 离散化，然后用类似 BERT/MAE 的遮掩-预测策略进行训练。

核心 idea：将 HMR 建模为图像条件下的遮掩 token 生成任务，通过自监督预训练学习 3D 人体先验，再在两种推理模式下统一实现高精度和多样性。

方法详解¶

整体框架¶

MEGA 基于 encoder-decoder Transformer 架构。首先使用预训练的 Mesh-VQ-VAE 将人体 mesh 编码为 N=54 个离散 token（每个对应身体的特定部位，codebook 大小 S=512）。训练分两阶段：(1) 自监督预训练——在动捕数据上学习从部分可见 token 重建完整 mesh token，无需图像数据；(2) 监督训练——加入图像 embedding 作为条件，训练模型在随机遮掩 token 的情况下预测完整 mesh。推理时支持确定性模式（一次前向预测所有 token）和随机模式（迭代采样）。

关键设计¶

Mesh Token 化与自监督预训练:
- 功能：将连续的 3D mesh 表示转化为离散 token，并利用大规模动捕数据学习 3D 人体先验
- 核心思路：使用 Mesh-VQ-VAE 将 6890 个顶点的 SMPL mesh 编码为 54 个 token，每个 token 从 512 大小的 codebook 中选取。预训练阶段参照 VQ-MAE 思路，使用可变遮掩率 \(M = \lfloor N \cos(\pi\tau/2) \rfloor\)（\(\tau \sim U[0,1)\)），编码器处理可见 token，解码器预测被遮掩 token，仅用交叉熵损失监督。在 AMASS 动捕数据上训练 500 epoch
- 设计动机：(1) 离散 token 表示天然限制预测在有效人体空间内，避免非人形 mesh；(2) 预训练在无图像配对数据下利用海量动捕数据学习人体运动学先验，消融实验表明这贡献了 2.5-6.0mm PVE 的提升；(3) 可变遮掩率对随机模式至关重要，因为迭代生成每步可见 token 数不同
图像条件遮掩生成训练:
- 功能：学习从图像特征条件下预测随机遮掩的 mesh token
- 核心思路：在预训练基础上，将图像特征（通过 HRNet 或 ViT 提取）线性映射为 D=1024 维 embedding 序列，与 mesh token embedding 拼接后送入解码器。训练时 mesh token 使用与预训练相同的余弦遮掩率调度，图像 embedding 保持完全可见。监督仅用交叉熵损失——与使用 3D 关节、2D 重投影、SMPL 参数等多种损失的传统方法相比，这极大简化了训练。另外一个 MLP 从图像特征预测全局 6D 旋转和透视相机参数
- 设计动机：保持与预训练一致的遮掩率调度很重要（消融显示 100% 遮掩训练略降性能），因为这让自监督和监督阶段共享相同的训练分布
确定性与随机双模式推理:
- 功能：灵活支持高精度单输出或多样化多输出场景
- 核心思路：确定性模式——从全遮掩序列出发，单次前向传播预测所有 54 个 token（取 argmax）。此模式不需要编码器，只用解码器，模型大小大幅减小（\(B_e=12 > B_d=4\)）。随机模式——迭代 T 步生成。第 t 步预测 \(n_t - n_{t-1}\) 个新 token，其中 \(n_t = \lfloor N(1-\cos(\pi t / 2T)) \rfloor\)。使用 Gumbel-max 采样从预测分布中采样候选 token，再从候选中采样固定数量设为可见。重复 Q 次得到 Q 个不同预测
- 设计动机：确定性模式首次实现了"在 MAE 中丢弃编码器只用解码器"，之前 MAE 工作都是丢弃解码器用编码器做下游任务。随机模式通过 Gumbel 采样引入随机性，每次运行产生不同 mesh，天然建模了 HMR 的多解性

损失函数 / 训练策略¶

预训练阶段：仅交叉熵损失，AMASS 数据集，500 epoch。HMR 训练：先在 MSCOCO 上 100 epoch，再在混合数据集（MSCOCO + Human3.6M + MPI-INF-3DHP + MPII）上 10 epoch。旋转和相机参数用旋转矩阵欧氏距离 + 2D 关节重投影 L1 损失。4 块 A100 GPU 约 2.5 天完成全部训练。

实验关键数据¶

主实验¶

确定性模式 (3DPW 数据集):

方法	Backbone	PVE↓	MPJPE↓	PA-MPJPE↓
CLIFF	HRNet-w48	87.6	73.9	46.4
VQ-HPS	HRNet-w48	84.8	71.1	45.2
MEGA	HRNet-w48	81.6	68.5	44.1
HMR2.0	ViT-H	84.1	70.0	44.5
MEGA	ViT-H	80.0	67.5	41.0

随机模式 (3DPW 数据集, ResNet-50 backbone):

方法	PVE (Q=1)	PVE (Q=25)	改进比
Diff-HMR	114.6	109.8	4.2%
ProHMR	-	- (84.0 MPJPE)	13.4%
MEGA	101.6	87.5	13.9%
MEGA det	90.6	-	-

消融实验¶

配置	PVE (3DPW)↓	PVE (EMDB)↓	说明
MEGA (完整)	81.6	107.9	余弦遮掩率调度
Linear masking	86.5	118.7	线性遮掩率，性能下降
Full mask	81.8	110.3	100% 遮掩训练，略降
w/o pre-training + full mask	84.1	113.9	无预训练，PVE 升高 2.5/6.0mm

关键发现¶

自监督预训练是 MEGA 的关键组件，去掉后 PVE 在 3DPW 上升高 2.5mm、EMDB 上升高 6.0mm，说明动捕数据中的人体先验对 HMR 至关重要
余弦遮掩率调度优于线性调度，与 MAE 中发现的"高遮掩率有利于学习"的结论一致
在遮挡数据集 3DPW-OCC 上，MEGA (HRNet) 达到 PVE=93.8mm，超越所有专为遮挡设计的方法（如 SEFD 97.1mm），体现了 mesh token 间 self-attention 的优势——可见部分推断被遮挡部分
随机模式下 Q=25 时 PVE 可降至 87.5mm（vs 确定性 90.6mm），说明多输出采样能发现比确定性预测更好的解

亮点与洞察¶

首次在 MAE 中丢弃编码器：传统 MAE 丢弃解码器用编码器做下游任务，MEGA 反其道行之在确定性模式下丢弃编码器只用解码器，因为全遮掩输入无需编码器处理。这是一个很有启发性的架构设计选择
超简单的训练损失：仅用交叉熵损失就超越了使用 5-6 种损失的传统 HMR 方法，说明好的表示空间（离散 token）可以大幅简化训练目标
遮挡鲁棒性：Token 级别的遮掩-预测训练天然赋予了模型"从部分推断整体"的能力，可以迁移到其他需要处理遮挡的任务

局限与展望¶

依赖预训练的 Mesh-VQ-VAE 的重建质量——codebook 的量化误差直接传递为训练目标的噪声
随机模式需要多次前向传播（T 步 × Q 次），实时性受限
仅验证了单人场景，多人场景下如何扩展是开放问题
全局旋转和相机参数仍使用确定性回归预测，未纳入概率建模

评分¶

新颖性: ⭐⭐⭐⭐ 遮掩生成建模首次应用于 HMR，双模式推理设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 覆盖确定性/随机两种模式、多个基准、详尽消融、遮挡评估
写作质量: ⭐⭐⭐⭐ 思路清晰，方法阐述详尽
价值: ⭐⭐⭐⭐ 统一了单输出和多输出 HMR 范式，为后续研究提供了新思路