Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction¶

会议: AAAI 2026
arXiv: 2512.21707
代码: https://github.com/alanyz106/ST-MoE
领域: 人体理解
关键词: 多人运动预测, 混合专家模型, Mamba, 时空建模, 高效推理

一句话总结¶

提出ST-MoE框架，首次将混合专家模型（MoE）与双向时空Mamba相结合用于多人运动预测，通过四种异构时空专家灵活捕获复杂时空依赖，实现SOTA精度的同时减少41.38%参数量，训练加速3.6倍。

研究背景与动机¶

多人运动预测（Multi-Person Motion Prediction, MPMP）旨在根据历史运动序列预测未来多人关节位置，在人机交互、自动驾驶、监控系统等领域有重要应用。

现有方法存在两个核心限制：

时空表示不灵活： - MRT使用固定模式的时空位置编码，缺乏灵活性 - TBIFormer虽引入了轨迹感知相对位置编码增强空间感知，但身体部位连接操作增加了序列长度 - IAFormer利用自注意力探索交互信息中的时空特征，性能好但效率差

计算成本高： - 基于Transformer的方法因自注意力的二次复杂度导致计算开销大 - 随着人数增多，计算量急剧增长

核心动机：能否设计一种既灵活又高效的新范式，全面捕获人体运动中的时空依赖？

作者的洞察是：(1) MoE的动态激活机制可以实现灵活的子网络选择；(2) Mamba的线性复杂度可以替代二次复杂度的注意力机制；(3) 将两者结合可同时解决灵活性和效率问题。

方法详解¶

整体框架¶

输入运动序列 → DCT + Multi-Pose Encoder编码 → 门控路由器将特征分配给4种时空专家 → 专家输出经加权聚合 → Multi-Pose Decoder + iDCT解码 → 预测未来运动。

关键设计¶

1. 问题定义与输入处理¶

定义第 \(i\) 个人的历史运动序列 \(\textbf{P}_{1:t}^i \in \mathbb{R}^{D \times t}\)，预测未来运动 \(\textbf{P}_{t+1:T}^i \in \mathbb{R}^{D \times (T-t)}\)，其中 \(D = J \times 3\)（\(J\)个关节的3D坐标）。

输入填充：复制最后观测帧 \(T-t\) 次并拼接到观测序列后，形成 \(\textbf{P}_{\text{input}}^i \in \mathbb{R}^{D \times T}\)。

Multi-Pose Encoder：采用IAFormer的3层GCN编码器，先做DCT变换增强表示紧凑性：

\[\textbf{F}_{\text{input}}^i = \text{ME}(\text{DCT}(\textbf{P}_{\text{input}}^i))\]

2. 混合时空Mamba专家（MoSTME）¶

这是论文的核心创新。编码特征 \(\textbf{F}_{\text{input}} \in \mathbb{R}^{B \times D \times T}\) 同时输入专家池和路由器。

门控路由机制：

\[\textbf{E}_{\text{output}} = \sum_{e=1}^{N} \textbf{f}_e(\textbf{F}_{\text{input}}) \textbf{p}_e\]

\[\textbf{p}_e = \text{softmax}(\text{TopK}(g(\textbf{F}_{\text{input}}), k))_e\]

其中 \(g(\cdot)\) 是基于MLP的门控函数，TopK保留前k个条目的原始值，其余设为 \(-\infty\)，经softmax后接近零实现稀疏激活。实验验证全部激活（k=4）效果最佳。

四种异构专家——每种由双向空间Mamba和双向时间Mamba的不同组合构成：

专家类型	处理顺序	捕获模式
Spatial-Temporal (ST)	空间→时间	先空间后时间的依赖
Temporal-Temporal (TT)	时间→时间	强时间依赖
Temporal-Spatial (TS)	时间→空间	先时间后空间的依赖
Spatial-Spatial (SS)	空间→空间	强空间依赖

以ST专家为例：

\[\textbf{F}'' = \text{rearrange}(\text{Bi-SMamba}(\textbf{F}_{\text{input}}))\]

\[\textbf{F}_{\text{output}_1} = \text{rearrange}(\text{Bi-TMamba}(\textbf{F}''))\]

关键设计：所有专家共享同一组双向时间Mamba和双向空间Mamba参数，仅组合顺序不同，大幅减少参数量。

3. 双向时空Mamba¶

原始Mamba的单向建模限制了全局依赖捕获。引入双向扫描机制：

\[\textbf{f}_o^s = \text{SMamba}(\overrightarrow{\textbf{f}_s}) + \text{SMamba}(\overleftarrow{\textbf{f}_s}) + \overrightarrow{\textbf{f}_s}\]

\[\textbf{f}_o^t = \text{TMamba}(\overrightarrow{\textbf{f}_t}) + \text{TMamba}(\overleftarrow{\textbf{f}_t}) + \overrightarrow{\textbf{f}_t}\]

然后通过LayerNorm + FFN + 残差连接增强特征表示：

\[\textbf{F}_o^\star = \text{LN}(\text{LN}(\textbf{f}_o^\star) + \text{FFN}(\text{LN}(\textbf{f}_o^\star)))\]

空间Mamba沿姿态维度 \(D\) 扫描，时间Mamba沿时间维度 \(T\) 扫描，各自的参数化遵循标准Selective SSM架构（含离散化、输入依赖的A、B、C矩阵）。

损失函数 / 训练策略¶

空间损失 \(L_s\)：约束历史和未来关节位置

\[L_s = \frac{\lambda}{J \cdot M \cdot t}\sum_{m,j,i=1}^{t}\|\hat{\textbf{P}}_{i,j}^m - \textbf{P}_{i,j}^m\|^2 + \frac{1}{J \cdot M \cdot (T-t)}\sum_{m,j,i=t+1}^{T}\|\hat{\textbf{P}}_{i,j}^m - \textbf{P}_{i,j}^m\|^2\]

时间一致性损失 \(L_t\)：减轻预测运动中的时间抖动

\[L_t = \text{MSE}(\text{Conv}(\textbf{P}_{\text{pred}}), \text{Conv}(\textbf{P}_{\text{gt}}))\]

总损失：\(L = \alpha L_s + \beta L_t\)，\(\alpha=1, \beta=1, \lambda=0.1\)

训练配置：batch size=96，Adam优化器，初始学习率0.01，指数衰减（\(0.1^{1/50}\)/epoch），单张RTX 3090 GPU。

实验关键数据¶

主实验¶

CMU-Mocap（UMPM）数据集 — JPE（mm）：

方法	0.2s	0.6s	1.0s	平均
MRT	36	115	193	114
TBIFormer	30	109	182	107
JRFormer	32	104	161	99
IAFormer	32	96	159	96
ST-MoE (Ours)	31	95	158	95

CHI3D数据集 — JPE（mm）：

方法	0.2s	0.4s	0.6s	0.8s	1.0s	平均
TBIFormer	45	95	145	192	233	142
IAFormer	39	83	129	176	218	129
ST-MoE (Ours)	44	79	123	161	200	121

比IAFormer平均JPE降低8mm，比TBIFormer降低21mm。

效率对比：参数量减少41.38%，训练加速3.6×（vs IAFormer）。

消融实验¶

异构专家有效性（CMU-Mocap UMPM）：

配置	JPE平均(↓)	APE平均(↓)	说明
Baseline（仅Encoder/Decoder）	111.1	73.3	无专家
+ST专家×4	104.5	70.7	仅空间-时间专家
+TT专家×4	98.1	66.4	仅时间-时间专家
+TS专家×4	100.1	68.7	仅时间-空间专家
+SS专家×4	98.3	68.2	仅空间-空间专家
+All（4种各1个）	95.0	65.4	异构组合最优

双向扫描有效性：

扫描策略	JPE平均	APE平均
仅前向	99.3	67.5
仅后向	98.9	67.0
双向	95.0	65.4

双向比单向分别降低4.3mm和3.9mm JPE。

关键发现¶

全部激活最优：实验表明激活所有4个专家性能最优，随着激活数增加，JPE/APE持续下降
单层MoE最佳：堆叠更多MoE层反而导致过拟合
异构优于同构：4种不同专家的组合显著优于使用任何单一类型的4个专家
t-SNE可视化证实4种专家学到了不同的特征分布，形成明显分离的聚类
自适应门控权重可视化：TT/ST专家偏向捕获近似静态的运动，SS/TS专家偏向捕获空间动态模式

亮点与洞察¶

MoE+Mamba的巧妙结合：利用MoE实现灵活的专家选择，用Mamba的线性复杂度替代注意力的二次复杂度，两个正交的改进相辅相成
参数共享设计精妙——4种专家共享同一组Mamba参数，仅改变组合顺序，实现了"少量参数、多样功能"
定性分析有说服力：通过t-SNE和门控权重可视化直观展示了不同专家捕获不同运动模式的机理（静态vs动态、空间vs时间）
框架具有通用性，可扩展到其他需要时空建模的序列预测任务

局限与展望¶

仅支持确定性预测：当前方法输出单一确定性轨迹，未来需扩展到随机多人运动预测
场景限制：实验数据主要是少量人的实验室环境（2-10人），密集人群场景的表现未验证
单层MoE的局限：作者发现多层MoE会过拟合，可能需要更好的正则化策略
专家数量固定为4：专家类型的设计空间可以进一步探索（如引入跨人交互专家）

评分¶

新颖性: ⭐⭐⭐⭐ — MoE+Mamba的异构专家设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 4个数据集+丰富消融+可视化分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表设计优秀
价值: ⭐⭐⭐⭐ — 效率-精度权衡的标杆性工作