RAM: Recover Any 3D Human Motion in-the-Wild¶
会议: CVPR 2026
arXiv: 2603.19929
代码: 无
领域: 人体理解 / 3D 人体运动恢复
关键词: 多人3D运动恢复, 零样本跟踪, SAM2, 时序人体网格恢复, 运动预测
一句话总结¶
RAM 提出统一的多人 3D 运动恢复框架,集成运动感知语义跟踪器 SegFollow(基于 SAM2 + 自适应卡尔曼滤波)、记忆增强的时序人体网格恢复模块 T-HMR、轻量运动预测器和门控组合器,在 PoseTrack 和 3DPW 等基准上实现零样本跟踪稳定性和 3D 精度的 SOTA,且推理速度比之前方法快 2-3 倍。
研究背景与动机¶
- 领域现状:单目视频多人 3D 运动恢复是活跃的研究方向,代表方法有 4DHuman(HMR2.0 + PHALP 跟踪)和 CoMotion(端到端联合优化)。
- 现有痛点:(1) 现有跟踪方法依赖 2D 外观特征和匈牙利匹配,对快速运动、严重遮挡和视角变化敏感,频繁出现 ID 切换;(2) 一旦身份连续性断裂,3D 运动序列变得不一致;(3) 目标被遮挡或快速运动时,缺乏基于记忆的运动先验导致重建不连续。
- 核心矛盾:不稳定的跟踪触发冗余检测和重复初始化,既降低重建精度又阻碍实时性能。
- 本文目标:构建实时、鲁棒的多人 3D 运动恢复系统。
- 切入角度:将 SAM2 的强分割能力与运动先验结合,用卡尔曼滤波提供运动感知的身份关联。
- 核心 idea:SegFollow 提供稳定跟踪 → T-HMR 利用时序记忆提升重建一致性 → Predictor 预测遮挡期间的姿态 → Combiner 融合重建和预测。
方法详解¶
整体框架¶
RAM 包含四个组件串联工作:SegFollow 对每帧进行运动感知跟踪→T-HMR 从跟踪实例重建 3D 网格→Predictor 从历史运动预测未来姿态→Combiner 门控融合重建和预测结果输出最终 SMPL 参数。
关键设计¶
-
SegFollow 运动感知跟踪:
- 功能:基于 SAM2 实现鲁棒的零样本身份跟踪
- 核心思路:在 SAM2 基础上引入两个组件——(a) 运动引导选择器:用卡尔曼滤波预测目标边界框,计算 IoU 运动一致性分数 \(s_{\text{kf}}\),与 SAM2 掩码亲和度 \(s_{\text{mask}}\) 门控融合为 \(s_{\text{fused}} = \alpha s_{\text{mask}} + (1-\alpha) s_{\text{kf}}\);(b) 时序缓冲区:用指数滑动平均替代 SAM2 的 FIFO 记忆更新,衰减因子由卡尔曼一致性分数自适应调节。还引入置信度门控更新——只有连续可靠关联达到阈值 \(\tau_{kf}\) 后才更新卡尔曼状态
- 设计动机:SAM2 的 FIFO 记忆缺乏时序可靠性建模,容易在遮挡/快速运动下积累噪声
-
T-HMR 时序人体网格恢复:
- 功能:利用时序上下文提升 3D 重建的一致性和鲁棒性
- 核心思路:包含记忆缓存(Memory Cache)和 MemFormer 两个组件。Memory Cache 从相邻 \(L\) 帧的 ViT 特征中,用双分支注意力评分机制选择 top-k 最相关帧:一个分支计算当前帧与记忆帧的相关性,另一个评估记忆帧间的内部一致性。MemFormer 将选出的时序先验注入重建过程
- 设计动机:单帧重建缺乏时序一致性,遮挡时更需要历史帧的先验补充
-
Predictor + Combiner:
- 功能:Predictor 预测未来姿态以填补遮挡期间的空白;Combiner 自适应融合重建和预测
- 核心思路:Predictor 基于历史 SMPL 参数的运动模式进行轻量预测。Combiner 通过可学习门控机制根据当前观测的可靠性自适应决定信任重建还是预测
- 设计动机:遮挡时重建不可靠,需要预测提供连续性;但遮挡结束后应切回重建
损失函数 / 训练策略¶
T-HMR 使用 SMPL 参数回归损失(关节位置 + 姿态参数 + 形状参数)。Predictor 和 Combiner 端到端训练。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 4DHuman | CoMotion | RAM | 提升 |
|---|---|---|---|---|---|
| PoseTrack | MOTA↑ | 68.2 | 71.5 | 76.3 | +4.8 |
| PoseTrack | IDF1↑ | 72.1 | 74.8 | 80.5 | +5.7 |
| 3DPW | MPJPE↓ | 78.5 | 72.3 | 65.8 | -6.5 |
| 3DPW | PA-MPJPE↓ | 49.2 | 45.1 | 41.3 | -3.8 |
RAM 在跟踪稳定性(MOTA/IDF1)和 3D 精度(MPJPE)上均大幅领先。
消融实验¶
| 配置 | MOTA (PoseTrack) | MPJPE (3DPW) | FPS | 说明 |
|---|---|---|---|---|
| Full RAM | 76.3 | 65.8 | 25+ | 完整模型 |
| w/o SegFollow (用 PHALP) | 71.1 | 70.2 | 15 | SegFollow 是核心 |
| w/o T-HMR 记忆 | 74.8 | 69.5 | 25+ | 时序记忆提升一致性 |
| w/o Predictor | 75.0 | 67.3 | 25+ | 预测器改善遮挡处理 |
关键发现¶
- SegFollow 贡献最大(MOTA +5.2),说明稳定跟踪是多人运动恢复的瓶颈
- RAM 推理速度比 4DHuman 快 2-3 倍,因为稳定跟踪减少了冗余检测和重复初始化
- 在长视频真实场景中 ID 切换极少,首次实现稳定的零样本多人运动恢复
- T-HMR 的双分支评分比单分支更有效,相关性和一致性缺一不可
亮点与洞察¶
- SAM2 + 卡尔曼滤波的结合:将视觉基础模型的分割能力与经典运动建模结合,取长补短
- 置信度门控更新:避免不可靠检测污染运动状态,是一个实用的工程设计
- 零样本长视频能力:首个在长真实视频中无需重训练即保持稳定多人 3D 重建的方法
局限与展望¶
- 仍依赖检测器提供初始边界框
- 极端遮挡(完全不可见超过数十帧)时预测器可能漂移
- SMPL 模型限制了手部和面部细节的恢复
- 未来可扩展到手部/面部精细重建(SMPL-X)
相关工作与启发¶
- vs 4DHuman: 4DHuman 用 PHALP 跟踪,RAM 用 SegFollow 显著改善跟踪稳定性和速度
- vs CoMotion: CoMotion 端到端联合优化但速度慢,RAM 模块化设计更快更灵活
- vs SAM2: SAM2 的 FIFO 记忆在 MOT 场景下不够鲁棒,SegFollow 引入运动先验修补了此缺陷
评分¶
- 新颖性: ⭐⭐⭐⭐ 整体框架是已有组件的巧妙集成
- 实验充分度: ⭐⭐⭐⭐ 多基准评测,消融充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐⭐ 解决了多人 3D 运动恢复的实际瓶颈问题
相关论文¶
- [CVPR 2026] MoLingo: Motion-Language Alignment for Text-to-Human Motion Generation
- [CVPR 2026] TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size
- [CVPR 2026] E-3DPSM: A State Machine for Event-Based Egocentric 3D Human Pose Estimation
- [CVPR 2026] HUM4D: A Dataset and Evaluation for Complex 4D Markerless Human Motion Capture
- [CVPR 2025] WildAvatar: Learning In-the-Wild 3D Avatars from the Web