跳转至

Multivariate Gaussian Representation Learning for Medical Action Evaluation

会议: AAAI 2026
arXiv: 2511.10060
代码: https://github.com/HaoxianLiu/GaussMedAct
领域: 医学图像 / 动作识别
关键词: CPR评估, 高斯混合模型, 骨架动作识别, 时空表示, 医学数据集

一句话总结

提出 GaussMedAct 框架,将关节运动轨迹建模为多元高斯混合分布并结合笛卡尔-向量双流编码,在自建的 CPREval-6k 数据集上实现 92.1% Top-1 准确率,仅需 ST-GCN 10% 的计算量。

研究背景与动机

领域现状:心肺复苏(CPR)质量直接影响心脏骤停存活率。人工评估仅 74.8% 准确率,现有视觉系统难以捕捉厘米级运动偏差和毫秒级频率变化。

现有痛点: - RGB 方法(如 TimeSformer)计算量大、缺乏解剖学建模 - 骨架方法(如 ST-GCN)通过刚性时序池化丢弃运动语义,对噪声敏感 - 缺少合适的 CPR 评估数据集——现有数据集规模小、标注粗粒度

切入角度:受 3D Gaussian Splatting 用少量高斯分布高效表示稠密点云的启发,将关节运动轨迹视为时空点集,用高斯混合模型进行紧凑且抗噪的表示

方法详解

整体框架

输入骨架序列 → 双流空间编码(笛卡尔坐标 + 骨骼向量)→ 各流独立做多元高斯表示 → 特征融合 → 下游任务(分类/报告生成)

关键设计

  1. 多元高斯表示 (MGR):

    • 功能:将每个关节的时空轨迹 \(\mathcal{X}_i = \{(x, y, \alpha \cdot t)\}\) 建模为 \(K\) 个高斯分布的混合,用 EM 算法估计参数
    • 核心思路:每个高斯分量产生一个 10 维 action token:\(\mathbf{f}_{i,k} = [\boldsymbol{\mu}; \mathbf{s}; \mathbf{q}] \in \mathbb{R}^{10}\),其中 \(\mu\) 是均值(平均位置)、\(\mathbf{s}\) 是尺度(运动幅度)、\(\mathbf{q}\) 是四元数旋转(运动方向)
    • 设计动机:高斯分布的各向异性协方差天然编码运动方向和幅度,同时抗姿态估计噪声
  2. 混合空间编码 (HSE):

    • 功能:笛卡尔坐标流捕捉全局轨迹一致性,骨骼向量流编码运动转变
    • 核心思路:Joint stream 用绝对坐标 \((x, y)\),Bone stream 用相邻关节差值向量 \((\Delta x, \Delta y)\),两流独立通过 MGR 后融合
    • 设计动机:心理学研究表明稀疏 2D 光点就能传达动作印象,绝对位置和相对运动学互补
  3. CPREval-6k 数据集:

    • 6,372 个专家标注的 CPR 视频,22 个临床标签
    • 层级标注:每个视频一个主要错误 + 多个次要错误
    • 关联规则挖掘发现错误传播链(如手位不稳→位置偏移,置信度 77.6%)

训练策略

  • 标签平滑损失增强泛化
  • 早停 + 最多 300 epochs

实验关键数据

主实验(CPREval-6k)

方法 模态 Top-1 Acc Top-5 Acc GFLOPs
TimeSformer RGB 91.65% 99.07% 393.96
SlowFast RGB 87.54% 98.23% 65.70
ST-GCN Skeleton 86.22% 97.81% 43.76
CTR-GCN Skeleton 89.38% 98.06% 6.73
MGR-only Skeleton 89.54% 98.27% ~2
GaussMedAct Skeleton 92.12% 99.13% 4.45

跨数据集评估(Coach 数据集,14类)

方法 模态 Top-1 Acc
TSN-pretrained RGB 90.67%
STGCN-best Skeleton 92.46%
PoseC3D Skeleton 92.08%
GaussMedAct Skeleton 95.24%

消融实验

配置 Top-1 Acc GFLOPs 说明
MGR only 89.54% ~2 仅高斯表示已超越所有骨架基线
HSE only 87.21% ~3 仅空间编码
Full (MGR + HSE) 92.12% 4.45 两者协同增效 +2.58%

关键发现

  • 骨架方法平均比 RGB 方法少 6.13× FLOPs,GaussMedAct 仅 4.45 GFLOPs 即超越所有 RGB 方法
  • MGR 单独已竞争力强(89.54%),验证了高斯分布建模运动轨迹的有效性
  • 跨数据集泛化 +2.78%(95.24% vs 92.46%),证明表示的鲁棒性
  • 部署到实际 CPR 培训中,学员实操评估分数提升 32%

亮点与洞察

  • 从 3D Gaussian Splatting 到动作识别的跨领域迁移:用高斯分布表示稠密点云→用高斯分布表示运动轨迹,概念迁移巧妙且有效
  • 10维 action token 极度紧凑:均值(3)+尺度(3)+四元数(4)=10维,将变长时序压缩为固定大小表示,计算效率极高
  • 数据集贡献:CPREval-6k 的层级错误标注和关联规则分析揭示了 CPR 错误的传播链,有独立价值

局限与展望

  • 高斯分量数 \(K\) 是超参数,不同动作可能需要不同的 \(K\)
  • EM 算法非可微分,不能端到端训练 MGR 参数
  • 仅验证了 CPR 这一类高度重复性运动,对复杂自由运动的适用性未验证
  • 2D 骨架输入丢失深度信息,3D 骨架+MGR 可能进一步提升

相关工作与启发

  • vs ST-GCN:ST-GCN 用图卷积+时序卷积,计算量 43.76 GFLOPs;GaussMedAct 用高斯混合+双流,仅 4.45 GFLOPs 且精度更高
  • vs TimeSformer:RGB Transformer 虽然特征丰富但缺乏解剖学建模,GaussMedAct 以骨架为基础天然适合医学动作评估

评分

  • 新颖性: ⭐⭐⭐⭐ 高斯表示用于动作识别是新颖的跨领域迁移
  • 实验充分度: ⭐⭐⭐⭐ 数据集+跨数据集+消融+实际部署
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,但符号较多
  • 价值: ⭐⭐⭐⭐ 数据集和方法对医学动作评估有实际价值

相关论文