VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery¶

会议: CVPR2026
arXiv: 2602.19180
机构: Nanyang Technological University, HKUST(GZ), SenseTime Research, ASTAR 代码: 待确认
领域: 3d_vision
关键词*: Human Mesh Recovery, diffusion model, VLM, GRPO, Preference Alignment, Critique Agent

一句话总结¶

提出基于VLM的双记忆自反思评判代理（Critique Agent）为扩散式人体网格恢复生成组级偏好信号，再通过组偏好对齐（Group Preference Alignment）微调扩散模型，无需3D标注即可大幅提升野外场景下的HMR精度。

背景与动机¶

单目人体网格恢复（HMR）是一个本质不适定问题：同一张2D图像可对应多种3D姿态。现有方法分为三类：

优化方法（如SMPLify）：迭代优化但易陷入局部最优
回归方法（如HMR、HybrIK）：直接预测单一结果，无法处理深度/遮挡模糊
概率方法（如ScoreHypo、ADHMR）：生成多假设但常牺牲精度

扩散式HMR方法虽能生成多样假设，但存在两个关键缺陷：

预测与输入不一致：生成的3D网格常与2D图像证据偏离，尤其在遮挡和复杂场景下
DPO指导不可靠：ADHMR使用的HMR-Scorer仅基于2D关节特征打分，容易被轮廓匹配但物理不合理的姿态欺骗；且DPO仅做成对比较，忽略了组内多个预测之间的质量关系

核心问题¶

如何为扩散式HMR提供高质量的偏好监督信号，使模型在无3D真值的野外数据上也能学习生成物理合理且与图像一致的人体网格？

方法详解¶

整体框架¶

框架包含三个核心组件：

VLM引导的HMR评判代理（Sec 3.3）：为预测网格生成语义感知的质量分数
HMR组偏好数据集构建（Sec 3.4）：利用评判代理自动标注组级偏好
组偏好对齐训练（Sec 3.5）：将GRPO思想引入扩散模型微调

3.3 VLM引导的HMR评判代理¶

核心思路¶

不同于传统回归打分器（从2D关节数据预测分数），本文的评判代理直接从渲染的叠加图像出发，模拟人类专家判断。给定RGB图像 \(I\) 和 \(n\) 个网格预测叠加图 \(\{\hat{I}_j\}_{j=1}^n\)，代理输出每个叠加图的分数 \(s_j \in [0, 100]\) 和一句话评语 \(c_j\)。

使用 Qwen3-VL-32B 作为VLM骨干。

3.3.1 双记忆机制¶

设计两种互补的记忆存储：

记忆类型	存储内容	数据结构	作用
规则记忆 \(\mathcal{M}_R\)	评估规则文本	\((t_i, T_i, N_i^u, N_i^s)\)：规则文本、语义标签、使用次数、成功次数	提供通用评判准则
原型记忆 \(\mathcal{M}_P\)	已评判的典型案例	\((v_i, r_i, T_i)\)：CLIP视觉嵌入、评判理由含分数、语义标签	提供相似案例参照

双记忆增强打分流程（三步）：

Step 1 — 原型检索：用查询图像的CLIP嵌入 \(v_q\) 从 \(\mathcal{M}_P\) 中检索余弦相似度最高的 top-\(K\) 个历史案例作为参照。

Step 2 — 规则检索：通过混合得分 \(\Psi_i\) 选择最有效的评判规则：

\[\Psi_i = \mathrm{R}(T_q, T_i) + \mathrm{U}_i\]

其中语义相关性 \(\mathrm{R}(T_q, T_i) = |T_q \cap T_i|\) 奖励与查询标签匹配的规则。UCB探索得分为：

\[\mathrm{U}_i = \rho_i + C\sqrt{\frac{\log N_{\text{total}}}{N_i^u + 1}}\]

\(\rho_i = N_i^s / N_i^u\) 是历史成功率，\(C\) 为探索常数。该设计平衡了高成功率规则的利用与低频规则的探索。

Step 3 — 上下文化打分：将检索到的规则和原型理由动态组装为提示词，送入VLM生成最终分数和评语。

3.3.2 反思式知识构建¶

直接提示VLM打分会产生不稳定、不一致的结果。因此引入探索阶段让代理自主构建领域知识：

双记忆增强打分：对一批数据执行打分，增加已使用规则的 \(N_i^u\)
原型回写：将典型案例存入 \(\mathcal{M}_P\)
规则更新：将代理的分数排名与GT指标通过Spearman秩相关进行比较。若相关性 > 阈值 \(\tau\)，则相应规则的 \(N_i^s\) 递增
新规则挖掘（核心）：指示VLM检查自身输出与GT指标的差异，提出1-2条新的可测试规则，加入 \(\mathcal{M}_R\)

评估阶段：冻结记忆和学习循环，仅执行双记忆增强打分，保证一致性。

3.4 HMR组偏好数据集构建¶

数据集构建分两步：

组生成：对每张训练图像 \(I\)，用冻结的预训练扩散参考模型 \(\epsilon_{\text{ref}}\) 以不同初始噪声采样 \(G\) 次，得到一组多样化的人体网格预测 \(\{\mathbf{m}^i\}_{i=1}^G\)
组级打分：将图像 \(I\) 和所有 \(G\) 个预测（渲染为2D叠加图）同时送入评判代理，获得组内一致的相对质量分数：

\[\{s^1, \ldots, s^G\} = \mathcal{C}_{\text{VLM}}(I, \mathbf{m}^1, \ldots, \mathbf{m}^G)\]

最终数据集 \(\mathcal{G}_{\text{HMR}} = \{(I, (\mathbf{m}^1, s^1), \ldots, (\mathbf{m}^G, s^G))\}\)。该过程完全自动化，无需人工标注。

3.5 组偏好对齐训练¶

从GRPO到扩散模型¶

GRPO原本用于LLM随机解码对齐，但扩散模型通常使用确定性ODE采样器（如DDIM）。直接用SDE采样引入随机性需沿整条扩散轨迹训练，计算成本高且输出质量下降。

本文的关键创新：保持ODE采样效率，只提取GRPO的组级偏好信号。

训练目标推导¶

Step 1 — 计算组内优势：对预偏好数据集中的分数 \(\{s^i\}_{i=1}^G\) 计算标准化优势：

\[A_i = \frac{s_i - \text{mean}(\{s_i\}_{i=1}^G)}{\text{std}(\{s_i\}_{i=1}^G)}\]

Step 2 — 优势加权对数似然比：将扩散采样器视为条件策略 \(p_\theta(\mathbf{m} | \mathbf{c})\)，优化目标为：

\[\mathcal{L}(\theta) = -\mathbb{E}_{\mathbf{c}, \{\mathbf{m}^i\}} \left[\sum_{i=1}^G A(\mathbf{m}^i) \log \frac{p_\theta(\mathbf{m}^i | \mathbf{c})}{p_{\text{ref}}(\mathbf{m}^i | \mathbf{c})}\right]\]

Step 3 — 扩散代理损失：利用Diffusion-DPO的重参数化，将对数似然比转化为噪声预测损失之差：

\[\log \frac{p_\theta(\mathbf{m}^i | \mathbf{c})}{p_{\text{ref}}(\mathbf{m}^i | \mathbf{c})} \approx T\lambda_t \mathbb{E}_{t, \epsilon}[L_{\text{DM}}^{\text{ref}}(\mathbf{x}_t^i, \epsilon) - L_{\text{DM}}^\theta(\mathbf{x}_t^i, \epsilon)]\]

最终训练损失：

\[\mathcal{L}(\theta) = \mathbb{E}_{\mathbf{m} \sim \mathcal{G}_{\text{HMR}}, t, \epsilon} \; \beta T \lambda_t \sum_{i=1}^G \left[A(\mathbf{m}^i)(L_{\text{DM}}^\theta(\mathbf{x}_t^i, \epsilon) - L_{\text{DM}}^{\text{ref}}(\mathbf{x}_t^i, \epsilon))\right]\]

直觉解释：高分网格（正优势）被鼓励获得比参考模型更小的去噪损失；低分网格（负优势）则被推向相反方向。整个过程不需要3D真值标注。

实验关键数据¶

主实验结果（Tab.1 节选）¶

方法	类型	M	3DPW MPJPE↓	3DPW PA-MPJPE↓	H36M MPJPE↓	H36M PA-MPJPE↓
ScoreHypo	概率	100	63.0	37.6	38.4	26.0
ADHMR	概率	100	57.2	33.5	36.9	24.8
Ours	概率	100	52.5	31.5	35.0	23.9
Ours†	概率	100	49.9	31.9	34.3	23.5

Ours vs ADHMR（M=100）：3DPW MPJPE降低 8.2%（57.2→52.5）
Ours†额外使用InstaVariety野外数据（仅用偏好信号，无3D标签），3DPW MPJPE进一步降至49.9

消融实验（Tab.2）¶

配置	3DPW PVE↓	MPJPE↓	PA-MPJPE↓
Base扩散模型	73.4	63.0	37.6
+ 监督微调	70.2	61.3	36.5
DPO + Critique Agent	63.9	53.1	33.4
Ours w/o Critique Agent（HMR-Scorer）	65.4	54.9	34.7
Ours（完整）	59.5	49.9	31.9

组偏好对齐 vs DPO：MPJPE降低6.0%（53.1→49.9），说明组级信号优于成对比较
去掉Critique Agent用HMR-Scorer：性能明显下降，验证高质量偏好信号的重要性
监督微调在噪声伪标签上改善有限

评判代理评估¶

去掉自反思机制（w/o self-reflection）导致所有指标最大幅度下降，证明自反思知识构建是代理排名稳定性的关键。

亮点¶

首个VLM评判代理用于HMR：双记忆（规则+原型）+ 自反思机制，比传统2D关节打分器有更强的3D感知能力，能识别自穿透、深度关系错误等
GRPO到扩散模型的优雅迁移：不需要SDE采样引入随机性，保持ODE效率的同时提取组级偏好信号，损失函数推导简洁直观
无需3D真值的野外微调：仅靠评判代理的相对偏好信号即可在InstaVariety等野外数据上有效微调，突破了HMR依赖高质量3D标注的瓶颈
UCB探索策略：规则检索借鉴多臂老虎机的UCB策略，自动平衡已验证规则的利用与新规则的探索

局限与展望¶

VLM推理成本：使用Qwen3-VL-32B作为评判代理，构建偏好数据集时推理成本较高，限制了大规模应用
评判代理的探索阶段依赖GT：规则学习和验证仍需合成/实验室数据的3D真值，评判能力可能受探索数据分布影响
组大小的影响：训练时G=20，更大的组是否带来更好的偏好信号未充分探讨
仅支持单人：框架基于SMPL单人模型，未涉及多人场景的扩展

与相关工作的对比¶

vs ADHMR：ADHMR用DPO+HMR-Scorer做成对偏好学习，打分器基于2D关节特征易受遮挡误导；本文用VLM评判代理提供更可靠的3D感知分数，组偏好对齐优于成对DPO
vs ScoreHypo：ScoreHypo用辅助选择网络挑最优假设，但不改善生成分布；本文直接优化扩散模型的采样策略
vs GRPO扩散方法（DAPO、D-GRPO）：它们通过SDE采样引入随机性，需沿整条轨迹训练；本文采用离线GRPO+ODE采样，更高效

启发与关联¶

双记忆+自反思的VLM评判代理是一个通用范式，可迁移到其他需要自动质量评估的3D任务（如手部重建、场景重建）
组偏好对齐框架不依赖具体打分器，理论上可与任何质量评估方法结合
利用VLM的3D语义先验做评判，是LLM-as-a-Judge在视觉3D任务中的首次成功应用

评分¶

新颖性: ⭐⭐⭐⭐ — VLM评判代理+组偏好对齐双创新，GRPO到扩散的离线迁移设计巧妙
实验充分度: ⭐⭐⭐⭐ — 多基准对比+详细消融+定性分析+评判代理独立评估
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导完整
价值: ⭐⭐⭐⭐ — 无3D标注微调的能力对实际应用有重要意义