SAT-HMR: Real-Time Multi-Person 3D Mesh Estimation via Scale-Adaptive Tokens¶

会议: CVPR 2025
arXiv: 2411.19824
代码: 项目主页
领域: 3D视觉/人体理解
关键词: 多人3D网格估计, 尺度自适应, 高效ViT, DETR, 实时推理

一句话总结¶

提出 SAT-HMR，一种基于 DETR 的实时多人 3D 人体网格估计框架，通过引入尺度自适应 token——对小尺度人物使用高分辨率 token、大尺度人物使用低分辨率 token、背景 token 进行池化压缩——在保持高分辨率输入精度的同时将推理速度提升至 24 FPS，实现了精度和速度的最佳平衡。

研究背景与动机¶

多人 3D 网格估计的挑战：从单张 RGB 图像估计所有人的 SMPL 参数，既需要局部细节（关节姿态）又需要全局上下文（相对位置、遮挡关系）。
多阶段 vs 一阶段：多阶段方法先检测再逐人裁剪估计，精度好但丢失全局上下文且难以处理遮挡。一阶段方法（如 ROMP、BEV）基于 CNN 处理整图，但低分辨率输入限制了表达能力。
高分辨率的代价：新兴的 DETR 式方法（AiOS、Multi-HMR）通过使用高分辨率输入（1288 分辨率）达到 SOTA，但推理速度仅约 5 FPS。关键观察：高分辨率主要有利于小尺度人物（远距离/儿童/蜷缩姿势）——0-10% 尺度范围内误差下降 35mm，而 30%+ 尺度范围改善极小。
核心洞察：对大尺度人物（靠近相机、占图像大面积）使用高分辨率 token 是计算浪费——他们已经由足够多的 token 表示。应将高分辨率计算资源集中在真正需要的小尺度人物上。
背景区域可压缩：背景 token 提供有用的上下文信息（不应完全丢弃），但可以通过空间池化进一步压缩。

方法详解¶

整体框架¶

SAT-HMR 采用 DETR 式管线：(1) 从低分辨率图像提取 token 并用浅层 Transformer 编码 → (2) 用尺度头预测 patch 级尺度图 \(\mathbf{S}\) → (3) 根据尺度图将 token 分为背景/小尺度/大尺度三类 → (4) 小尺度 token 替换为高分辨率对应 token，背景 token 池化压缩，大尺度 token 保持不变 → (5) 拼接得到尺度自适应 token \(\mathcal{T}_{\text{SA}}\) → (6) 后续 Transformer 编码器 + 解码器 + 预测头回归 SMPL 参数。

关键设计¶

设计一：Patch 级尺度图预测 - 功能：判断每个 patch 是否覆盖人物以及该人物的相对尺度 - 核心思路：尺度图 \(\mathbf{S}(i,j) = (c, s)\) 包含两个值：\(c\) 为人物置信度（0 表示背景），\(s = \min(d_{\text{bb}} / S_{\text{hr}}, 1)\) 为人物尺度（bounding box 对角线与图像最大边的比值）。当 patch 覆盖多人时取最近人物的尺度。从低分辨率 token 经 \(N_{\text{lr}}\) 层 Transformer + MLP 尺度头预测。 - 设计动机：尺度定义直接反映了人物在图像中的占比，与该区域是否需要高分辨率token强相关；使用轻量头网络预测，引入的计算开销极小。

设计二：尺度自适应 Token 选择与替换 - 功能：动态调整各区域的 token 分辨率 - 核心思路：根据阈值 \(\alpha_c\)（置信度）和 \(\alpha_s\)（尺度）将 token 分为三组：(1) 背景 \(\mathcal{T}_B\)：每 4 个相邻 token 池化为 1 个得到 \(\mathcal{T}_B'\)；(2) 小尺度 \(\mathcal{T}_{\text{SMALL}}\)：剪除后用高分辨率图像对应位置的 token 替换，\(k_{\text{hr}} = 4 k_{\text{small}}\)；(3) 大尺度 \(\mathcal{T}_{\text{LARGE}}\)：保持低分辨率不变。最终拼接 \(\mathcal{T}_{\text{SA}} = \{\mathcal{T}_B', \mathcal{T}_{\text{LARGE}}, \mathcal{T}_{\text{HR}}\}\)。 - 设计动机：小尺度人物在低分辨率下特征不足（主导了高分辨率带来的增益），用 4 倍分辨率的 token 替换正好弥补；大尺度人物已有足够 token 覆盖；背景不丢弃而是池化保留上下文。

设计三：双分辨率编码器对齐 - 功能：确保低分辨率和高分辨率 token 在同一特征空间中可拼接 - 核心思路：低分辨率和高分辨率分支各自使用浅层 Transformer 编码器处理（\(N_{\text{lr}} = N_{\text{hr}} = 3\) 层），共享相同的 DINOv2 预训练权重。两分支独立编码后，在拼接点进行特征空间对齐，后续由 \(N_{\text{sa}} = 9\) 层统一 Transformer 编码器处理。 - 设计动机：层数相同保证了特征抽象层级一致，便于后续统一编码器无缝处理混合分辨率 token。

损失函数¶

总损失为多项损失的加权和：\(\mathcal{L} = \lambda_{\text{map}} \mathcal{L}_{\text{map}} + \lambda_{\text{depth}} \mathcal{L}_{\text{depth}} + \lambda_{\text{pose}} \mathcal{L}_{\text{pose}} + \lambda_{\text{shape}} \mathcal{L}_{\text{shape}} + \lambda_{\text{j3d}} \mathcal{L}_{\text{j3d}} + \lambda_{\text{j2d}} \mathcal{L}_{\text{j2d}} + \lambda_{\text{box}} \mathcal{L}_{\text{box}} + \lambda_{\text{det}} \mathcal{L}_{\text{det}}\)。其中 \(\mathcal{L}_{\text{map}}\) 包含尺度图的 focal loss + L1 loss，\(\mathcal{L}_{\text{depth}}\) 为归一化深度 L1 loss，\(\mathcal{L}_{\text{det}}\) 为检测 focal loss，其余采用 L1 距离。

实验关键数据¶

主实验：AGORA 测试集¶

方法	分辨率	时间 (ms)	MACs (G)	F1 ↑	MPJPE ↓	MVE ↓
ROMP	512	38.7	43.6	0.91	108.1	103.4
BEV	512	50.6	48.9	0.93	105.3	100.7
AiOS	1333	405.2	314.5	0.94	63.9	57.5
Multi-HMR	1288	231.7	6104.6	0.95	65.3	61.1
SAT-HMR	644*	42.0	133.1	0.95	67.9	63.3

其他数据集泛化性¶

方法	3DPW PA-MPJPE ↓	MuPoTS PCK All ↑	CMU Panoptic Avg ↓
Multi-HMR	41.7	85.0	-
BEV	46.9	70.2	109.5
SAT-HMR	41.6	89.0	84.2

消融实验：背景 token 策略¶

策略	0-20% MVE	80%+ MVE	Avg MVE
全部丢弃	59.9	70.8	57.2
不池化	60.3	64.1	56.1
池化×2	60.7	66.5	56.3
池化×1 (Ours)	60.0	62.7	56.0

关键发现¶

SAT-HMR 以 24 FPS (42ms) 实现了与 Multi-HMR (4 FPS) 可比的精度，速度提升约 5.5 倍
MACs 从 Multi-HMR 的 6104.6G 降至 133.1G，降低 97.8%
完全丢弃背景 token 会导致大尺度人物误差从 62.7 升至 70.8，证明背景上下文的重要性
CMU Panoptic 上从 BEV 的 109.5 降至 84.2（提升 23.1%），展现超强泛化能力

亮点与洞察¶

精准的问题洞察："高分辨率主要帮助小尺度人物"这一实证观察直接指导了方法设计
计算资源的智能分配：将宝贵的高分辨率 token 集中在最需要的区域，背景压缩但不丢弃
首个实时 SOTA：在 AGORA 排行榜上实现了实时级别（24 FPS）的 SOTA 性能，实用价值极高
方法设计简洁优雅，没有引入复杂的新模块，而是通过 token 层面的重新分配实现效果

局限与展望¶

尺度定义未考虑人物高度信息（如蹲下的成年人与站立的儿童 bounding box 相似），可能导致深度估计偏差
当前仅估计 SMPL body mesh，未扩展到 SMPL-X 全身 mesh（包括手、面部）
尺度阈值 \(\alpha_s\) 为固定超参数，场景变化大时可能需要自适应调整
需要同时处理高低分辨率两张图像，内存占用仍有优化空间

评分¶

⭐⭐⭐⭐ — 问题洞察精准、方法设计简洁、实验充分，实现了实时 SOTA 的突破性成果。对高效 Vision Transformer 在人体理解任务中的应用有很好的参考价值。