HOIGen-1M: A Large-Scale Dataset for Human-Object Interaction Video Generation¶
会议: CVPR 2025
arXiv: 2503.23715
代码: https://liuqi-creat.github.io/HOIGen.github.io
领域: 视频理解/视频生成
关键词: 人物交互, 文本到视频生成, 大规模数据集, 视频描述, 多模态大模型
一句话总结¶
HOIGen-1M 是首个面向人物交互 (HOI) 视频生成的百万级高质量数据集,通过高效数据筛选管线和 Mixture-of-Multimodal-Experts (MoME) 字幕策略解决了 HOI 视频数据稀缺和描述幻觉问题,并提出 CoarseHOIScore/FineHOIScore 两个评估指标来量化生成视频中交互的质量。
研究背景与动机¶
领域现状¶
领域现状:文本到视频 (T2V) 生成已取得巨大进展,Sora、Kling 1.5 等模型可以生成复杂场景。然而,人物交互 (HOI) 作为物理世界的基本组成部分,仍然是当前 T2V 模型的硬伤——即使超过 10B 参数的模型也难以准确生成简单的 HOI 视频(如"把行李箱搬上公交车")。
现有痛点:(1) 缺乏大规模 HOI 视频数据——WebVid-10M 包含低质量水印视频,Panda-70M 含大量静态/模糊视频且多数不含 HOI;(2) 现有 HOI 感知数据集(CAD-120、BEHAVE 等)规模太小(数千到数万级),远达不到训练 T2V 模型所需的百万级;(3) 现有字幕方法要么太简短(12-13 词),要么不专门针对 HOI 设计,丢失交互细节;(4) 缺乏评估 HOI 视频生成质量的专用指标。
核心矛盾:T2V 模型在 HOI 场景下的表现远不如一般场景,根本原因是训练数据中缺乏大规模、高质量、描述精确的 HOI 视频。
本文目标 构建一个百万级高质量 HOI 视频数据集,设计精确的视频描述方法,以及提出 HOI 视频生成的评估框架。
方法详解¶
整体框架¶
HOIGen-1M 的构建包含三个核心部分:(1) 视频筛选管线——从 8000 万原始视频中自动筛选出高质量 HOI 视频;(2) MoME 字幕策略——利用多个多模态大模型互相验证,消除幻觉并生成精确描述;(3) 评估框架——提出 CoarseHOIScore 和 FineHOIScore 两个指标,从粗到细评估生成视频中的交互质量。
关键设计¶
-
高效视频筛选管线:
- 功能:从 8000 万原始视频中高效筛选出包含 HOI 的高质量视频
- 核心思路:五阶段级联过滤——(a) 元数据过滤(时长>1s、分辨率≥720p、帧率≥20FPS);(b) OCR 过滤去除文字多的视频;(c) 美学评分过滤确保视觉质量;(d) 光流评分过滤确保适度运动(过高/过低都排除);(e) MLLM+LLM 判断是否含 HOI(PLLaVA 生成描述 + Qwen2.5 判断交互);最终 150 万视频进入人工验证阶段
- 人工验证:7 名标注员用 8 周时间逐一检查交互是否明显、物体是否可见,最终得到 110 万视频
-
Mixture-of-Multimodal-Experts (MoME) 字幕策略:
- 功能:生成精确且无幻觉的 HOI 视频描述
- 核心思路:(a) 两个字幕专家(PLLaVA 和 Qwen2-VL)分别生成描述;(b) 一个决策专家(Llama3.1)判断两个描述是否一致——不一致则检测到幻觉;(c) 检测到幻觉时,引入第三个字幕专家聚焦争议区域,再由决策专家融合生成修正后的描述;(d) 无幻觉时,由决策专家选择信息更丰富的描述
- 设计动机:单个 MLLM 在视频描述时不可避免会产生幻觉,通过多专家交叉验证可系统性地检测和消除幻觉
-
CoarseHOIScore 和 FineHOIScore 评估指标:
- CoarseHOIScore:使用 HOI 检测器检测生成视频中是否存在 HOI 三元组(人、物体、动作),按帧统计超过置信度阈值的比例
- FineHOIScore:基于 MLLM 评分,综合评估交互合理性、动作流畅度、人体真实度等多个维度,提供更细粒度的质量评估
损失函数/训练策略¶
本文主要贡献是数据集而非模型。在微调 T2V 模型验证数据集价值时,使用的是各模型原有的训练策略(如 CogVideoX-5B 的原始训练损失)。
实验关键数据¶
主实验¶
| 指标 | 数据 |
|---|---|
| 数据集规模 | 110 万+ 视频片段 |
| 视频时长 | 共 2200+ 小时 |
| 分辨率 | ≥720p |
| 平均描述长度 | 153.8 词(WebVid-10M: 12.0, Panda-70M: 13.2) |
| 物体种类 | 15,000+ |
| 交互动作种类 | 7,000+ |
| 微调后 CogVideoX-5B CoarseHOIScore | 接近商业软件 Kling 1.5 的水平 |
| 最佳商业模型 (Kling 1.5) CoarseHOIScore | 42.72% |
| 最佳开源模型 (CogVideoX-5B) CoarseHOIScore | 32.84% |
| Hailuo CoarseHOIScore | 39.56% |
| Dreamina CoarseHOIScore | 36.36% |
| 评估prompt数量 | 306 条(乐器、交通工具、厨具等) |
| 人工验证耗时 | 7 名标注员 × 8 周 |
亮点与洞察¶
- 首个百万级 HOI 视频生成数据集:填补了 T2V 领域在 HOI 方向的数据空白,所有视频均经过人工验证
- MoME 字幕策略的幻觉消除思路:通过多个 MLLM 交叉验证而非依赖单个模型,是处理大规模自动标注中幻觉问题的有效范式
- HOI 评估指标的设计:将 HOI 检测器引入生成评估是巧妙的跨任务迁移——比通用指标更能捕捉交互生成的核心质量
- 实验揭示的 gap:即使最先进的商业模型 Kling 1.5 在 CoarseHOIScore 上也仅 42.72%,说明 HOI 视频生成仍然是一个远未解决的难题
局限与展望¶
- CoarseHOIScore 和 FineHOIScore 依赖现有 HOI 检测器和 MLLM 的能力,可能无法捕捉精细的交互质量差异
- 数据集主要来源于公开视频,场景和拍摄条件可能存在偏差
- 人工验证虽然保证了质量,但限制了进一步扩展的效率
- 字幕平均 153.8 词虽然比现有数据集长很多,但对于复杂 HOI 场景仍可能不够详细
相关工作¶
- T2V 数据集:WebVid-10M(1000 万视频,短描述,有水印)、Panda-70M(7000 万视频,短描述,多静态)、OpenVid-1M(100 万视频,长描述,通用场景)
- HOI 感知数据集:BEHAVE(15.2K 帧,RGBD+SMPL)、HOI4D(4000 段第一人称 4D 视频)、GRAB(1334 段全身+手部动作捕捉序列)、MPHOI-72(72段多人活动视频)、PVSG(400段第一/第三人称视频)
- T2V 模型:Sora(分钟级视频生成)、CogVideoX(开源百万级训练)、Kling 1.5(商业级视频生成)、OpenSora/OpenSoraPlan(开源社区方案)
- 视频描述方法:PLLaVA(视频多模态理解)、Qwen2-VL(视频描述生成)、MoME 策略(多专家交叉验证消除幻觉)
- 视频质量评估:VBench(16维视频质量评估框架)、FID/FVD(通用生成质量指标)
评分¶
- 新颖性:⭐⭐⭐⭐(首个百万级 HOI 视频生成数据集 + MoME 幻觉消除 + 专用评估指标)
- 实用性:⭐⭐⭐⭐⭐(直接可用于提升 T2V 模型的 HOI 生成能力)
- 技术深度:⭐⭐⭐(数据集论文以工程为主,方法创新适中)
- 表达清晰度:⭐⭐⭐⭐(结构清晰,分析全面)
相关论文¶
- [ICCV 2025] DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation
- [CVPR 2025] IDOL: Instant Photorealistic 3D Human Creation from a Single Image
- [CVPR 2025] MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation
- [CVPR 2025] Video-Bench: Human-Aligned Video Generation Benchmark
- [CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval