AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation¶

会议: AAAI 2026
arXiv: 2512.14095v1
代码: 无
领域: 人体理解 / 4D生成 / 人物交互
关键词: 4D HOI生成, 零样本, 锚点先验蒸馏, NeRF, 视频扩散模型

一句话总结¶

提出 AnchorHOI，通过锚点NeRF和锚点关键点两种中间桥梁，分别从图像/视频扩散模型中蒸馏交互先验和运动先验，实现零样本的文本驱动4D人物-物体交互生成，在静态3D和动态4D HOI生成上均超越已有方法。

背景与动机¶

文本驱动的4D人物-物体交互（HOI）生成在AR/VR、游戏、机器人等领域有广泛应用。现有监督方法依赖稀缺且昂贵的动捕（mocap）配对数据，严重限制了可扩展性。最近的零样本方法如AvatarGO尝试用预训练图像扩散模型替代mocap数据，但存在两个关键缺陷：（1）交互组合时人体姿态固定为标准姿态，缺乏适应性；（2）运动来源于与物体无关的文本-人体运动模型，忽视了交互感知的运动合成。因此需要更丰富的先验来源和更有效的先验蒸馏技术。

核心问题¶

如何在不依赖mocap配对数据的前提下，从预训练的图像和视频扩散模型中有效蒸馏交互先验，生成具有逼真姿态和交互感知运动的4D HOI序列？核心挑战在于：（1）在图像扩散模型引导下优化高自由度的SMPL-X人体关节姿态非常困难；（2）视频扩散模型生成的合成视频中存在严重的主体间遮挡，难以直接提取可靠的交互运动信息。

方法详解¶

整体框架¶

AnchorHOI采用两阶段流水线：先生成静态3D HOI实例（交互组合），再扩展为动态4D HOI序列（运动合成）。输入为自然语言描述（包括人物、动作、物体的描述），输出为多帧3D人物-物体交互序列。核心创新是引入"锚点"作为中间桥梁，将原本困难的直接优化问题分解为可处理的两步过程。

关键设计¶

锚点NeRF进行交互组合: 直接在SMPL-X参数空间上用SDS优化姿态几乎不可行（高维、非线性），因此先用SDS从图像扩散模型生成一个粗糙的纠缠态人物-物体NeRF，再通过多视角特征对齐提取出人体部分作为锚点NeRF。然后用OpenPose从锚点NeRF渲染图中检测2D骨架关键点，通过最小化投影3D关节与2D检测关键点之间的差距来优化SMPL-X的姿态参数，实现姿态自适应的交互组合。物体则从锚点NeRF的物体部分初始化，再通过SDS完善。
锚点关键点进行运动合成: 视频扩散模型生成的HOI视频中，人物与物体在接触区域存在严重遮挡，纯像素级线索不足以捕获交互运动。因此定义了两类锚点关键点：（a）身体关键点——用OpenPose从每帧视频中检测18个2D人体关键点，在遮挡下仍能提供鲁棒的姿态线索；（b）接触关键点——基于3D几何代理（物体mesh表面采样点与SMPL-X mesh候选接触顶点），利用法向量对齐和几何邻近约束识别有效接触点对，捕获遮挡区域的交互信息。
运动优化: 以锚点关键点为跟踪线索，通过联合损失优化每帧的人体和物体运动参数。损失包括：关节投影对齐损失（SMPL-X关节重投影到2D与检测关键点对齐）、接触约束损失（保持人物-物体接触对距离最小化）、穿透惩罚、以及正则化项（渲染一致性、自穿透惩罚、时间平滑性）。

损失函数 / 训练策略¶

姿态对齐损失 \(\mathcal{L}_{\text{align}}\): 多视角下SMPL-X 3D关节投影与OpenPose检测2D关键点的Geman-McClure鲁棒距离
运动总损失 \(\mathcal{L}_{\text{total}} = \lambda_J \mathcal{L}_J + \lambda_C \mathcal{L}_C + \lambda_{\text{pen}} \mathcal{L}_{\text{pen}} + \lambda_{\text{reg}} \mathcal{L}_{\text{reg}}\)
\(\mathcal{L}_J\): 关节重投影对齐（带置信度加权的Geman-McClure）
\(\mathcal{L}_C\): 接触关键点对之间的欧氏距离
\(\mathcal{L}_{\text{pen}}\): 人物-物体穿透惩罚
\(\mathcal{L}_{\text{reg}}\): 渲染MSE + 自穿透惩罚 + 时间平滑
交互组合阶段3000迭代，运动合成阶段1000迭代，Adam优化器，lr=0.01，A6000 GPU

实验关键数据¶

对比方法	CLIP Score ↑	GPT-4V Overall ↑	User Semantic ↑	User Contact ↑	User Motion ↑	User Overall ↑
DreamGaussian4D	0.2833	25.00%	2.33	2.38	2.63	3.33
TC4D	0.3017	20.83%	3.11	2.32	2.39	3.66
AnchorHOI	0.3149	54.17%	4.79	4.75	4.87	4.83

3D静态HOI对比（vs MVDream/InterFusion/AvatarGO）：CLIP Score 0.3173（最高），GPT-4V Overall 选择率 52.63%（vs InterFusion 26.32%）。

消融实验要点¶

去掉锚点NeRF: GPT-4V选择率仅5.88%（vs 完整模型94.12%），人体姿态无法收敛到合理交互姿态
去掉身体关键点: 5.89%，运动姿态不合理
去掉接触关键点: 17.65%，动作视觉上合理但缺乏物理接触
完整模型: 76.47%，同时具备合理姿态和接触感知

亮点¶

锚点策略的设计哲学非常巧妙：不直接在高维参数空间做困难优化，而是引入中间表示（NeRF和关键点）作为桥梁，将问题分解为两步可控过程，这种"先建桥再过河"的思路具有很好的普适性
混合先验利用：首次将图像扩散模型（静态交互先验）和视频扩散模型（动态运动先验）结合用于零样本4D HOI生成
接触关键点的定义：结合法向量对齐和几何邻近约束来识别有效接触，物理机理清晰（接触处法向量反向、距离近）

局限性 / 可改进方向¶

假设人物与物体始终保持持续接触，无法处理接触断开再恢复的动态交互（如抛接物体）
仅支持刚性物体，无法处理铰接/柔性物体（如开门、折叠衣物）
生成速度受限于SDS迭代优化（3000+1000轮），实时性差
依赖OpenPose的2D关键点检测质量，遮挡严重时可能不稳定

与相关工作的对比¶

vs AvatarGO: AvatarGO是最直接的前作，但在交互组合阶段人体姿态固定为标准站姿，无法适应坐、蹲等交互特定姿态；且其4D部分未公开。AnchorHOI通过锚点NeRF实现了姿态自适应的交互组合。
vs DreamGaussian4D: 使用相同的VDM视频引导，但DG4D仅依赖RGB和mask像素线索来驱动HOI动画，无法捕获遮挡区域的交互运动；AnchorHOI通过锚点关键点提供了更鲁棒的交互运动线索。
vs InterFusion（3D）: InterFusion从预构建的姿态库中检索固定姿态，缺乏对特定交互场景的适应性；AnchorHOI通过锚点NeRF实现了与交互语义对齐的姿态优化。

启发与关联¶

锚点策略（先生成中间表示再蒸馏到目标表示）的思路可推广到其他扩散模型引导的3D/4D生成任务，特别是当目标表示（如参数化模型）难以直接接收扩散模型梯度时
接触关键点的定义方式（法向量对齐+几何邻近）可迁移到机器人抓取规划、物理仿真中的接触建模

评分¶

新颖性: ⭐⭐⭐⭐ 锚点策略将不可行的直接优化转化为两步可控过程，思路清晰且有效
实验充分度: ⭐⭐⭐⭐ 定量（CLIP/GPT-4V/用户研究）+ 定性 + 消融覆盖全面，但缺少与更多4D方法的对比
写作质量: ⭐⭐⭐⭐ 问题动机和方法描述清晰，anchor illustration图示直观
价值: ⭐⭐⭐⭐ 在零样本4D HOI这一新方向上取得显著进展，但受限于刚性物体和持续接触假设