GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection¶

日期: 2026-03-06
arXiv: 2603.06048
代码: 项目主页
领域: 视频理解
关键词: Hand-Object Interaction, Video Generation, RoPE, Attention Gate, Object Consistency

一句话总结¶

提出 GenHOI，一个基于预训练视频生成模型的轻量扩展模块，通过 Head-Sliding RoPE 实现时间均衡的参考物体信息注入和空间注意力门控实现空间选择性注入，在野外场景中显著提升手-物交互视频的物体一致性和交互真实感。

领域现状: 手-物交互（HOI）是数字人内容创作的核心挑战，在在线教育和电商领域尤为重要。近期 HOI 重演方法取得了进展，但泛化能力有限。
现有痛点: HOI 重演方法（如 HOI-Swap、Re-HOLD）在域内数据上表现好但难以泛化到野外场景；通用视频编辑模型（如 VACE）泛化性强但无法保持物体在帧间的一致性。
核心矛盾: 泛化能力（利用大规模预训练）与 HOI 特有需求（物体一致性 + 自然交互）之间存在冲突。
切入角度: 在预训练视频生成模型上增加轻量模块，专门解决参考物体信息的时间均衡和空间选择性注入。
核心idea一句话: 用 Head-Sliding RoPE 消除 3D RoPE 的时间衰减、用空间注意力门控将物体信息精准注入 HOI 区域，两者协同实现高质量 HOI 视频。

GenHOI 基于预训练 Wan-14B-I2V 视频生成模型，增加三个轻量组件：HOI Condition Unit（条件输入）、Head-Sliding RoPE（时间均衡注入）、Spatial Attention Gate（空间选择性注入）。训练以自监督重建方式进行。

HOI Condition Unit (HCU):
- 将视频 inpainting 与物体参考注入统一为条件输入
- 构造参考视频 \(\mathbf{V}_r\)：第 0 帧保留原始，后续帧用二值掩码标记 HOI 区域（掩码区域填充常数 \(\lambda=127\)）
- 所有输入在 VAE 潜空间中通道拼接：\(\mathbf{L_v} = \text{Concat}(\mathbf{X_t}, \mathcal{E}(\mathbf{V}_r), \psi(\mathbf{V}_{mask}))\)
- 不引入额外网络分支或参数
Head-Sliding RoPE:
- 问题：标准 3D RoPE 给条件 token 分配固定帧索引（如 -1），导致注意力响应随时间距离衰减——早期帧物体清晰，后期帧退化
- 解决：让不同注意力头分配不同的帧索引给参考 token：\(\lceil \frac{N_f}{N_{head}} n_{head} \rceil\)
- 效果：参考 token 的注意力响应在视频全时间跨度上被均匀平均
- 空间坐标保持不变，仅修改时间维度的 RoPE
Spatial Attention Gate（两级空间门控）:
- Hard Mask Gate (HMG)：二值掩码控制信息流向
- 允许 HOI 区域 query 关注参考 key
- 阻止背景 query 关注参考 key（避免背景污染）
- 阻止参考 query 反向关注视频 key（避免自回归泄漏）
- \(T_{out} = \text{softmax}\left(\frac{M \odot QK^\intercal}{\sqrt{d_k}}\right) V\)
Soft Flow Gate (SFG)：逐 token 门控系数
- \(G_v = \sigma(\mathcal{F}(\mathcal{LN}(T'_v)))\)，\(\tilde{T}_v = G_v \odot T'_v\)
- 自适应放大有信息区域、抑制冗余响应

短视频生成（81 帧）:

方法	PSNR ↑	SSIM ↑	LPIPS ↓	FID ↓	FVD ↓	OC ↑	VQ (用户)	RF (用户)
VACE	28.60	0.937	0.056	34.83	211.2	0.880	3.94	2.80
HOI-Swap	24.29	0.843	0.173	50.67	352.1	0.787	1.48	1.20
MimicMotion	20.13	0.685	0.206	48.89	395.1	0.777	2.82	2.09
GenHOI	31.71	0.952	0.036	11.53	67.95	0.937	4.49	4.64

长视频生成（401 帧）:

方法	PSNR ↑	FVD ↓	OC ↑	VQ (用户)	RF (用户)
VACE	26.32	195.9	0.882	3.14	2.29
GenHOI	30.69	42.17	0.932	4.46	4.53

方法	PSNR ↑	FID ↓	FVD ↓	OC ↑
HCU (baseline)	28.25	22.89	248.6	0.907
+ separate RoPE	29.73	22.66	223.8	0.908
+ ref-in-bbox	30.34	18.23	101.9	0.919
+ HS RoPE	30.88	17.92	103.9	0.915
+ HS RoPE + SAG	31.21	16.79	98.09	0.920
+ HS RoPE + SAG + FLF (full)	31.71	11.53	67.95	0.937