Multivariate Gaussian Representation Learning for Medical Action Evaluation¶
会议: AAAI 2026
arXiv: 2511.10060
代码: https://github.com/HaoxianLiu/GaussMedAct
领域: 医学图像 / 动作识别
关键词: CPR评估, 高斯混合模型, 骨架动作识别, 时空表示, 医学数据集
一句话总结¶
提出 GaussMedAct 框架,将关节运动轨迹建模为多元高斯混合分布并结合笛卡尔-向量双流编码,在自建的 CPREval-6k 数据集上实现 92.1% Top-1 准确率,仅需 ST-GCN 10% 的计算量。
研究背景与动机¶
领域现状:心肺复苏(CPR)质量直接影响心脏骤停存活率。人工评估仅 74.8% 准确率,现有视觉系统难以捕捉厘米级运动偏差和毫秒级频率变化。
现有痛点: - RGB 方法(如 TimeSformer)计算量大、缺乏解剖学建模 - 骨架方法(如 ST-GCN)通过刚性时序池化丢弃运动语义,对噪声敏感 - 缺少合适的 CPR 评估数据集——现有数据集规模小、标注粗粒度
切入角度:受 3D Gaussian Splatting 用少量高斯分布高效表示稠密点云的启发,将关节运动轨迹视为时空点集,用高斯混合模型进行紧凑且抗噪的表示
方法详解¶
整体框架¶
输入骨架序列 → 双流空间编码(笛卡尔坐标 + 骨骼向量)→ 各流独立做多元高斯表示 → 特征融合 → 下游任务(分类/报告生成)
关键设计¶
-
多元高斯表示 (MGR):
- 功能:将每个关节的时空轨迹 \(\mathcal{X}_i = \{(x, y, \alpha \cdot t)\}\) 建模为 \(K\) 个高斯分布的混合,用 EM 算法估计参数
- 核心思路:每个高斯分量产生一个 10 维 action token:\(\mathbf{f}_{i,k} = [\boldsymbol{\mu}; \mathbf{s}; \mathbf{q}] \in \mathbb{R}^{10}\),其中 \(\mu\) 是均值(平均位置)、\(\mathbf{s}\) 是尺度(运动幅度)、\(\mathbf{q}\) 是四元数旋转(运动方向)
- 设计动机:高斯分布的各向异性协方差天然编码运动方向和幅度,同时抗姿态估计噪声
-
混合空间编码 (HSE):
- 功能:笛卡尔坐标流捕捉全局轨迹一致性,骨骼向量流编码运动转变
- 核心思路:Joint stream 用绝对坐标 \((x, y)\),Bone stream 用相邻关节差值向量 \((\Delta x, \Delta y)\),两流独立通过 MGR 后融合
- 设计动机:心理学研究表明稀疏 2D 光点就能传达动作印象,绝对位置和相对运动学互补
-
CPREval-6k 数据集:
- 6,372 个专家标注的 CPR 视频,22 个临床标签
- 层级标注:每个视频一个主要错误 + 多个次要错误
- 关联规则挖掘发现错误传播链(如手位不稳→位置偏移,置信度 77.6%)
训练策略¶
- 标签平滑损失增强泛化
- 早停 + 最多 300 epochs
实验关键数据¶
主实验(CPREval-6k)¶
| 方法 | 模态 | Top-1 Acc | Top-5 Acc | GFLOPs |
|---|---|---|---|---|
| TimeSformer | RGB | 91.65% | 99.07% | 393.96 |
| SlowFast | RGB | 87.54% | 98.23% | 65.70 |
| ST-GCN | Skeleton | 86.22% | 97.81% | 43.76 |
| CTR-GCN | Skeleton | 89.38% | 98.06% | 6.73 |
| MGR-only | Skeleton | 89.54% | 98.27% | ~2 |
| GaussMedAct | Skeleton | 92.12% | 99.13% | 4.45 |
跨数据集评估(Coach 数据集,14类)¶
| 方法 | 模态 | Top-1 Acc |
|---|---|---|
| TSN-pretrained | RGB | 90.67% |
| STGCN-best | Skeleton | 92.46% |
| PoseC3D | Skeleton | 92.08% |
| GaussMedAct | Skeleton | 95.24% |
消融实验¶
| 配置 | Top-1 Acc | GFLOPs | 说明 |
|---|---|---|---|
| MGR only | 89.54% | ~2 | 仅高斯表示已超越所有骨架基线 |
| HSE only | 87.21% | ~3 | 仅空间编码 |
| Full (MGR + HSE) | 92.12% | 4.45 | 两者协同增效 +2.58% |
关键发现¶
- 骨架方法平均比 RGB 方法少 6.13× FLOPs,GaussMedAct 仅 4.45 GFLOPs 即超越所有 RGB 方法
- MGR 单独已竞争力强(89.54%),验证了高斯分布建模运动轨迹的有效性
- 跨数据集泛化 +2.78%(95.24% vs 92.46%),证明表示的鲁棒性
- 部署到实际 CPR 培训中,学员实操评估分数提升 32%
亮点与洞察¶
- 从 3D Gaussian Splatting 到动作识别的跨领域迁移:用高斯分布表示稠密点云→用高斯分布表示运动轨迹,概念迁移巧妙且有效
- 10维 action token 极度紧凑:均值(3)+尺度(3)+四元数(4)=10维,将变长时序压缩为固定大小表示,计算效率极高
- 数据集贡献:CPREval-6k 的层级错误标注和关联规则分析揭示了 CPR 错误的传播链,有独立价值
局限与展望¶
- 高斯分量数 \(K\) 是超参数,不同动作可能需要不同的 \(K\)
- EM 算法非可微分,不能端到端训练 MGR 参数
- 仅验证了 CPR 这一类高度重复性运动,对复杂自由运动的适用性未验证
- 2D 骨架输入丢失深度信息,3D 骨架+MGR 可能进一步提升
相关工作与启发¶
- vs ST-GCN:ST-GCN 用图卷积+时序卷积,计算量 43.76 GFLOPs;GaussMedAct 用高斯混合+双流,仅 4.45 GFLOPs 且精度更高
- vs TimeSformer:RGB Transformer 虽然特征丰富但缺乏解剖学建模,GaussMedAct 以骨架为基础天然适合医学动作评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 高斯表示用于动作识别是新颖的跨领域迁移
- 实验充分度: ⭐⭐⭐⭐ 数据集+跨数据集+消融+实际部署
- 写作质量: ⭐⭐⭐⭐ 动机清晰,但符号较多
- 价值: ⭐⭐⭐⭐ 数据集和方法对医学动作评估有实际价值
相关论文¶
- [ICCV 2025] InsideOut: Integrated RGB-Radiative Gaussian Splatting for Comprehensive 3D Object Representation
- [AAAI 2026] S2Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening
- [ICML 2025] Multivariate Conformal Selection
- [AAAI 2026] PINGS-X: Physics-Informed Normalized Gaussian Splatting with Axes Alignment for Efficient Super-Resolution of 4D Flow MRI
- [AAAI 2026] Unsupervised Motion-Compensated Decomposition for Cardiac MRI Reconstruction via Neural Representation