PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation¶

会议: CVPR 2025
arXiv: 2505.17475
代码: https://github.com/uyoung-jeong/PoseBH (有)
领域: 人体理解 / 姿态估计
关键词: 多数据集训练, 关键点原型, 跨骨骼迁移, Sinkhorn聚类, 自监督

一句话总结¶

提出 PoseBH，通过非参数关键点原型（Sinkhorn-Knopp 在线聚类）和跨类型自监督（CSS）实现人/动物/手部等不同骨骼定义数据集的统一训练，在 APT-36K 动物视频数据集上比 ViTPose++ 提升 11.2 AP，证明跨类型知识迁移的有效性。

领域现状：姿态估计数据集各有不同的骨骼定义——COCO 有 17 个人体关键点，AP-10K 有动物关键点，InterHand 有手部关键点。标准做法是为每种骨骼独立训练模型，浪费了跨数据集的共享知识。

现有痛点：多数据集联合训练面临两个关键问题：（1）不同骨骼的关键点数量和语义不同，无法共享预测头；（2）一个数据集标注的关键点在另一数据集中未标注，造成标签缺失。

核心矛盾：不同物种的骨骼看似完全不同，但关节类型有大量共享——如"弯曲关节"、"末端关节"在人/动物/手中都存在。

切入角度：用原型学习（prototype learning）在嵌入空间中发现跨骨骼的共享原型——不用预定义关键点对应关系，让聚类自动发现。

核心 idea：非参数关键点原型 + 跨类型自监督 = 所有骨骼类型的统一姿态估计。

本文目标：### 关键设计

非参数关键点原型:
- 功能：在嵌入空间中学习跨数据集共享的关键点表示
- 核心思路：为每种关键点维护 \(J \times M \times F\) 的原型矩阵（\(J\) 个关键点 × \(M\) 个原型 × \(F\) 维特征），通过在线 Sinkhorn-Knopp 聚类更新原型。

非参数关键点原型:
- 功能：在嵌入空间中学习跨数据集共享的关键点表示
- 核心思路：为每种关键点维护 \(J \times M \times F\) 的原型矩阵（\(J\) 个关键点 × \(M\) 个原型 × \(F\) 维特征），通过在线 Sinkhorn-Knopp 聚类更新原型。预测时用像素特征与原型的距离做分类
- 设计动机：不需要手工定义"人肘 = 猫前腿膝盖"，原型在训练中自动聚类
跨类型自监督（CSS）:
- 功能：利用未标注关键点类型的预测进行自监督学习
- 核心思路：对每个混合 batch 中的样本，用关键点头和嵌入头分别预测。两个头中置信度高的预测作为另一个头的伪标签，加权平均
- 设计动机：动物数据在人体数据集中没有标注，但模型可以从人体训练中学到的"关节"概念做预测，反之亦然

\(\mathcal{L}_{MDT} = \mathcal{L}_{KPL} + \mathcal{L}_{CSS}\)。关键点损失包含像素-原型对比损失（\(\mathcal{L}_{PPC}\)）和像素-原型距离损失（\(\mathcal{L}_{PPD}\)）。三阶段渐进训练。

数据集	PoseBH (ViT-B)	ViTPose++	提升
COCO	77.3 AP	76.5%	+0.8
AP-10K 动物	75.0 AP	74.1%	+0.9
APT-36K 视频动物	87.2 AP	76.0%	+11.2
InterHand 手部	87.1 AUC	86.2%	+0.9