Pose Priors from Language Models¶

会议: CVPR 2025
arXiv: 2405.03689
代码: GitHub
领域: 人体姿态估计 (Human Pose Estimation)
关键词: 3D姿态估计, 大语言模型, 接触预测, 姿态优化, 物理交互

一句话总结¶

提出 ProsePose 框架，利用大型多模态模型 (LMM, 如 GPT-4V) 作为接触先验，从图像中提取身体部位接触约束并转化为可优化的损失函数，在无需人工接触标注的情况下改善双人交互和自接触场景的 3D 姿态估计。

研究背景与动机¶

语言天然地编码了丰富的物理和社会交互信息——世代以来发展出了描述拥抱、握手、运动姿势等细微差别的词汇。然而，大多数 3D 人体姿态估计方法忽略了这一信息源。

接触场景（双人交互或自接触）对姿态估计尤为挑战： 1. 遮挡严重：接触处身体部位被遮挡，仅依赖 2D 关键点无法推断接触信息 2. 数据获取昂贵：现有方法如 BUDDI、REMIPS 依赖手动标注的接触图或动捕数据训练，此类数据集仅有几万张图像 3. 泛化受限：在特定接触数据集上训练的模型难以泛化到新的交互类型

核心 insight：LMM 在海量图文对上预训练，隐式学习了丰富的人体姿态和交互知识。如果能让 LMM 说出哪些身体部位在接触，就可以将语言描述转化为 3D 姿态优化的约束。这提供了一条无需任何接触标注数据的可扩展替代路径。

方法详解¶

整体框架¶

ProsePose 框架分为三个阶段： 1. 初始姿态估计：使用姿态回归器（双人用 BEV，单人用 HMR2）获得粗略 3D 姿态 2. LMM 约束生成：向 LMM 发送图像和指令，提取身体部位接触对列表 3. 约束姿态优化：将接触约束转化为损失函数，与关键点损失、先验损失联合优化姿态参数

关键设计¶

LMM 接触约束生成:
- 功能：从图像中自动推断身体部位间的接触关系
- 核心思路：裁剪并分割目标人物图像，送入 LMM (GPT-4V)。Prompt 指定粗粒度身体区域（arm, shoulder, back, waist 等），要求列出所有接触的区域对。使用 chain-of-thought 先描述姿态再列约束。不指定左右手（LMM 在 chirality 上不可靠），后续枚举所有左右分配取最小损失。采样 N=20 次响应取频率过滤
- 设计动机：粗粒度区域匹配 LMM 的语言粒度；多次采样+频率过滤缓解幻觉
约束到损失函数的转换:
- 功能：将语言约束转化为可微的优化目标
- 核心思路：每个约束 c=(R_a,R_b) 对应两组 mesh 顶点，损失=两组间最小距离。对 N 个采样的约束集取平均 loss（类似 self-consistency）。对双人场景取两种人员映射中的最小 loss。空约束集超阈值时回退到基线
- 设计动机：平均多次采样的损失有效降低单次幻觉的影响
联合姿态优化:
- 功能：综合多种损失约束优化 SMPL-X 参数
- 核心思路：分两阶段——阶段一优化 θ(姿态)+β(体型)+t(平移)，阶段二固定 β 仅优化 θ 和 t。总损失 = λ_LMM·L_LMM + λ_GMM·L_GMM + λ_β·L_β + λ_θ·L_θ + λ_2D·L_2D + λ_P·L_P
- 设计动机：多源损失相互制衡——L_LMM 引导接触、L_2D 保持投影准确、L_θ 防止偏离初始化、L_P 防止互穿

损失函数 / 训练策略¶

L_LMM: LMM 接触约束损失（核心贡献）
L_GMM: 高斯混合姿态先验
L_β: 体型正则 ||β||²₂
L_θ: 初始姿态偏差惩罚 ||θ'-θ||²₂
L_2D: 2D 关键点重投影损失（OpenPose + ViTPose）
L_P: 互穿惩罚损失（基于 winding numbers）

实验关键数据¶

主实验¶

双人交互（Joint PA-MPJPE↓ / PCC↑）：

方法	Hi4D PM↓	FlickrCI3D PM↓	FlickrCI3D PCC↑	CHI3D PM↓	CHI3D PCC↑
BEV (初始化)	144	106	64.8	96	71.4
Heuristic	116	67	77.8	105	74.1
ProsePose	93	58	79.9	100	75.8
BUDDI (有监督)	89	66	81.9	68	78.0

单人瑜伽（MOYO 数据集）：

方法	PA-MPJPE↓	PCC↑	PCC@5mm↑	PCC@15mm↑
HMR2	84	83.0	34.2	69.5
HMR2+opt	81	85.2	47.7	74.6
ProsePose	82	87.8	54.2	81.4

消融实验¶

配置	PA-MPJPE (Hi4D val)
完整模型	81
去掉 L_LMM	138
去掉 L_2D	130
去掉 L_GMM	85
去掉 L_β	91
去掉 L_θ	84
去掉 L_P	78

采样数影响：N 从 1 增到 20，PA-MPJPE 持续下降、PCC 持续上升

关键发现¶

无监督方法中最佳: ProsePose 在所有不使用接触监督的方法中表现最好
缩小与监督方法的差距: 在 Hi4D 上消除了 Heuristic 和 BUDDI 之间 85% 的 PA-MPJPE 差距
L_LMM 和 L_2D 贡献最大: 去掉这两个损失导致 PA-MPJPE 分别飙升至 138 和 130
多次采样是关键: 单次 LMM 预测噪声大，20 次采样取平均显著提升性能
Chirality 是 LMM 的主要弱点: LMM 难以区分左右肢体

亮点与洞察¶

LMM 作为 3D 理解工具的新范式: 将 LMM 的隐式物理知识提取为显式约束，桥接语言和 3D 几何
零标注的可扩展方案: 不需要任何接触标注数据，直接利用预训练 LMM
优雅的鲁棒性策略: 多采样+频率过滤+损失平均 = 类似 self-consistency 的集成方法
统一框架: 同一框架处理双人交互和单人自接触两种场景
Oracle 实验: Ground-truth 接触可将 PA-MPJPE 从 93 降至 81，说明更好的 LMM 有巨大改进空间

局限与展望¶

LMM 的 chirality 困难: 无法可靠区分左右肢体，限制了约束精确度
粗粒度区域: 目前使用的身体区域较粗，更精细的约束可能进一步改善
回退比例高: 在 CHI3D 上 224/431 例子回退到基线
LMM 调用成本: GPT-4V 20 次采样的 API 成本不低
未来随着 LMM 能力提升，该框架效果将自然改善

评分¶

新颖性: ⭐⭐⭐⭐ 将 LMM 作为 3D 姿态的接触先验是新颖且有启发性的范式
实验充分度: ⭐⭐⭐⭐ 三个双人数据集+一个单人数据集，详细消融，LMM 分析深入
写作质量: ⭐⭐⭐⭐ 结构清晰，方法形式化严谨，实验分析透彻
价值: ⭐⭐⭐⭐ 开创了 LMM→3D 姿态优化的新方向，随着 LMM 进步潜力巨大