AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation¶
会议: AAAI 2026
arXiv: 2512.14095v1
代码: 无
领域: 人体理解 / 4D生成 / 人物交互
关键词: 4D HOI生成, 零样本, 锚点先验蒸馏, NeRF, 视频扩散模型
一句话总结¶
提出 AnchorHOI,通过锚点NeRF和锚点关键点两种中间桥梁,分别从图像/视频扩散模型中蒸馏交互先验和运动先验,实现零样本的文本驱动4D人物-物体交互生成,在静态3D和动态4D HOI生成上均超越已有方法。
背景与动机¶
文本驱动的4D人物-物体交互(HOI)生成在AR/VR、游戏、机器人等领域有广泛应用。现有监督方法依赖稀缺且昂贵的动捕(mocap)配对数据,严重限制了可扩展性。最近的零样本方法如AvatarGO尝试用预训练图像扩散模型替代mocap数据,但存在两个关键缺陷:(1)交互组合时人体姿态固定为标准姿态,缺乏适应性;(2)运动来源于与物体无关的文本-人体运动模型,忽视了交互感知的运动合成。因此需要更丰富的先验来源和更有效的先验蒸馏技术。
核心问题¶
如何在不依赖mocap配对数据的前提下,从预训练的图像和视频扩散模型中有效蒸馏交互先验,生成具有逼真姿态和交互感知运动的4D HOI序列?核心挑战在于:(1)在图像扩散模型引导下优化高自由度的SMPL-X人体关节姿态非常困难;(2)视频扩散模型生成的合成视频中存在严重的主体间遮挡,难以直接提取可靠的交互运动信息。
方法详解¶
整体框架¶
AnchorHOI采用两阶段流水线:先生成静态3D HOI实例(交互组合),再扩展为动态4D HOI序列(运动合成)。输入为自然语言描述(包括人物、动作、物体的描述),输出为多帧3D人物-物体交互序列。核心创新是引入"锚点"作为中间桥梁,将原本困难的直接优化问题分解为可处理的两步过程。
关键设计¶
-
锚点NeRF进行交互组合: 直接在SMPL-X参数空间上用SDS优化姿态几乎不可行(高维、非线性),因此先用SDS从图像扩散模型生成一个粗糙的纠缠态人物-物体NeRF,再通过多视角特征对齐提取出人体部分作为锚点NeRF。然后用OpenPose从锚点NeRF渲染图中检测2D骨架关键点,通过最小化投影3D关节与2D检测关键点之间的差距来优化SMPL-X的姿态参数,实现姿态自适应的交互组合。物体则从锚点NeRF的物体部分初始化,再通过SDS完善。
-
锚点关键点进行运动合成: 视频扩散模型生成的HOI视频中,人物与物体在接触区域存在严重遮挡,纯像素级线索不足以捕获交互运动。因此定义了两类锚点关键点:(a)身体关键点——用OpenPose从每帧视频中检测18个2D人体关键点,在遮挡下仍能提供鲁棒的姿态线索;(b)接触关键点——基于3D几何代理(物体mesh表面采样点与SMPL-X mesh候选接触顶点),利用法向量对齐和几何邻近约束识别有效接触点对,捕获遮挡区域的交互信息。
-
运动优化: 以锚点关键点为跟踪线索,通过联合损失优化每帧的人体和物体运动参数。损失包括:关节投影对齐损失(SMPL-X关节重投影到2D与检测关键点对齐)、接触约束损失(保持人物-物体接触对距离最小化)、穿透惩罚、以及正则化项(渲染一致性、自穿透惩罚、时间平滑性)。
损失函数 / 训练策略¶
- 姿态对齐损失 \(\mathcal{L}_{\text{align}}\): 多视角下SMPL-X 3D关节投影与OpenPose检测2D关键点的Geman-McClure鲁棒距离
- 运动总损失 \(\mathcal{L}_{\text{total}} = \lambda_J \mathcal{L}_J + \lambda_C \mathcal{L}_C + \lambda_{\text{pen}} \mathcal{L}_{\text{pen}} + \lambda_{\text{reg}} \mathcal{L}_{\text{reg}}\)
- \(\mathcal{L}_J\): 关节重投影对齐(带置信度加权的Geman-McClure)
- \(\mathcal{L}_C\): 接触关键点对之间的欧氏距离
- \(\mathcal{L}_{\text{pen}}\): 人物-物体穿透惩罚
- \(\mathcal{L}_{\text{reg}}\): 渲染MSE + 自穿透惩罚 + 时间平滑
- 交互组合阶段3000迭代,运动合成阶段1000迭代,Adam优化器,lr=0.01,A6000 GPU
实验关键数据¶
| 对比方法 | CLIP Score ↑ | GPT-4V Overall ↑ | User Semantic ↑ | User Contact ↑ | User Motion ↑ | User Overall ↑ |
|---|---|---|---|---|---|---|
| DreamGaussian4D | 0.2833 | 25.00% | 2.33 | 2.38 | 2.63 | 3.33 |
| TC4D | 0.3017 | 20.83% | 3.11 | 2.32 | 2.39 | 3.66 |
| AnchorHOI | 0.3149 | 54.17% | 4.79 | 4.75 | 4.87 | 4.83 |
3D静态HOI对比(vs MVDream/InterFusion/AvatarGO):CLIP Score 0.3173(最高),GPT-4V Overall 选择率 52.63%(vs InterFusion 26.32%)。
消融实验要点¶
- 去掉锚点NeRF: GPT-4V选择率仅5.88%(vs 完整模型94.12%),人体姿态无法收敛到合理交互姿态
- 去掉身体关键点: 5.89%,运动姿态不合理
- 去掉接触关键点: 17.65%,动作视觉上合理但缺乏物理接触
- 完整模型: 76.47%,同时具备合理姿态和接触感知
亮点¶
- 锚点策略的设计哲学非常巧妙:不直接在高维参数空间做困难优化,而是引入中间表示(NeRF和关键点)作为桥梁,将问题分解为两步可控过程,这种"先建桥再过河"的思路具有很好的普适性
- 混合先验利用:首次将图像扩散模型(静态交互先验)和视频扩散模型(动态运动先验)结合用于零样本4D HOI生成
- 接触关键点的定义:结合法向量对齐和几何邻近约束来识别有效接触,物理机理清晰(接触处法向量反向、距离近)
局限性 / 可改进方向¶
- 假设人物与物体始终保持持续接触,无法处理接触断开再恢复的动态交互(如抛接物体)
- 仅支持刚性物体,无法处理铰接/柔性物体(如开门、折叠衣物)
- 生成速度受限于SDS迭代优化(3000+1000轮),实时性差
- 依赖OpenPose的2D关键点检测质量,遮挡严重时可能不稳定
与相关工作的对比¶
- vs AvatarGO: AvatarGO是最直接的前作,但在交互组合阶段人体姿态固定为标准站姿,无法适应坐、蹲等交互特定姿态;且其4D部分未公开。AnchorHOI通过锚点NeRF实现了姿态自适应的交互组合。
- vs DreamGaussian4D: 使用相同的VDM视频引导,但DG4D仅依赖RGB和mask像素线索来驱动HOI动画,无法捕获遮挡区域的交互运动;AnchorHOI通过锚点关键点提供了更鲁棒的交互运动线索。
- vs InterFusion(3D): InterFusion从预构建的姿态库中检索固定姿态,缺乏对特定交互场景的适应性;AnchorHOI通过锚点NeRF实现了与交互语义对齐的姿态优化。
启发与关联¶
- 锚点策略(先生成中间表示再蒸馏到目标表示)的思路可推广到其他扩散模型引导的3D/4D生成任务,特别是当目标表示(如参数化模型)难以直接接收扩散模型梯度时
- 接触关键点的定义方式(法向量对齐+几何邻近)可迁移到机器人抓取规划、物理仿真中的接触建模
评分¶
- 新颖性: ⭐⭐⭐⭐ 锚点策略将不可行的直接优化转化为两步可控过程,思路清晰且有效
- 实验充分度: ⭐⭐⭐⭐ 定量(CLIP/GPT-4V/用户研究)+ 定性 + 消融覆盖全面,但缺少与更多4D方法的对比
- 写作质量: ⭐⭐⭐⭐ 问题动机和方法描述清晰,anchor illustration图示直观
- 价值: ⭐⭐⭐⭐ 在零样本4D HOI这一新方向上取得显著进展,但受限于刚性物体和持续接触假设