HOIGen-1M: A Large-Scale Dataset for Human-Object Interaction Video Generation¶

会议: CVPR 2025
arXiv: 2503.23715
代码: https://liuqi-creat.github.io/HOIGen.github.io
领域: 视频理解/视频生成
关键词: 人物交互, 文本到视频生成, 大规模数据集, 视频描述, 多模态大模型

一句话总结¶

HOIGen-1M 是首个面向人物交互 (HOI) 视频生成的百万级高质量数据集，通过高效数据筛选管线和 Mixture-of-Multimodal-Experts (MoME) 字幕策略解决了 HOI 视频数据稀缺和描述幻觉问题，并提出 CoarseHOIScore/FineHOIScore 两个评估指标来量化生成视频中交互的质量。

研究背景与动机¶

领域现状¶

领域现状：文本到视频 (T2V) 生成已取得巨大进展，Sora、Kling 1.5 等模型可以生成复杂场景。然而，人物交互 (HOI) 作为物理世界的基本组成部分，仍然是当前 T2V 模型的硬伤——即使超过 10B 参数的模型也难以准确生成简单的 HOI 视频（如"把行李箱搬上公交车"）。

现有痛点：(1) 缺乏大规模 HOI 视频数据——WebVid-10M 包含低质量水印视频，Panda-70M 含大量静态/模糊视频且多数不含 HOI；(2) 现有 HOI 感知数据集（CAD-120、BEHAVE 等）规模太小（数千到数万级），远达不到训练 T2V 模型所需的百万级；(3) 现有字幕方法要么太简短（12-13 词），要么不专门针对 HOI 设计，丢失交互细节；(4) 缺乏评估 HOI 视频生成质量的专用指标。

核心矛盾：T2V 模型在 HOI 场景下的表现远不如一般场景，根本原因是训练数据中缺乏大规模、高质量、描述精确的 HOI 视频。

本文目标 构建一个百万级高质量 HOI 视频数据集，设计精确的视频描述方法，以及提出 HOI 视频生成的评估框架。

方法详解¶

整体框架¶

HOIGen-1M 的构建包含三个核心部分：(1) 视频筛选管线——从 8000 万原始视频中自动筛选出高质量 HOI 视频；(2) MoME 字幕策略——利用多个多模态大模型互相验证，消除幻觉并生成精确描述；(3) 评估框架——提出 CoarseHOIScore 和 FineHOIScore 两个指标，从粗到细评估生成视频中的交互质量。

关键设计¶

高效视频筛选管线：
- 功能：从 8000 万原始视频中高效筛选出包含 HOI 的高质量视频
- 核心思路：五阶段级联过滤——(a) 元数据过滤（时长>1s、分辨率≥720p、帧率≥20FPS）；(b) OCR 过滤去除文字多的视频；(c) 美学评分过滤确保视觉质量；(d) 光流评分过滤确保适度运动（过高/过低都排除）；(e) MLLM+LLM 判断是否含 HOI（PLLaVA 生成描述 + Qwen2.5 判断交互）；最终 150 万视频进入人工验证阶段
- 人工验证：7 名标注员用 8 周时间逐一检查交互是否明显、物体是否可见，最终得到 110 万视频
Mixture-of-Multimodal-Experts (MoME) 字幕策略：
- 功能：生成精确且无幻觉的 HOI 视频描述
- 核心思路：(a) 两个字幕专家（PLLaVA 和 Qwen2-VL）分别生成描述；(b) 一个决策专家（Llama3.1）判断两个描述是否一致——不一致则检测到幻觉；(c) 检测到幻觉时，引入第三个字幕专家聚焦争议区域，再由决策专家融合生成修正后的描述；(d) 无幻觉时，由决策专家选择信息更丰富的描述
- 设计动机：单个 MLLM 在视频描述时不可避免会产生幻觉，通过多专家交叉验证可系统性地检测和消除幻觉
CoarseHOIScore 和 FineHOIScore 评估指标：
- CoarseHOIScore：使用 HOI 检测器检测生成视频中是否存在 HOI 三元组（人、物体、动作），按帧统计超过置信度阈值的比例
- FineHOIScore：基于 MLLM 评分，综合评估交互合理性、动作流畅度、人体真实度等多个维度，提供更细粒度的质量评估

损失函数/训练策略¶

本文主要贡献是数据集而非模型。在微调 T2V 模型验证数据集价值时，使用的是各模型原有的训练策略（如 CogVideoX-5B 的原始训练损失）。

实验关键数据¶

主实验¶

指标	数据
数据集规模	110 万+ 视频片段
视频时长	共 2200+ 小时
分辨率	≥720p
平均描述长度	153.8 词（WebVid-10M: 12.0, Panda-70M: 13.2）
物体种类	15,000+
交互动作种类	7,000+
微调后 CogVideoX-5B CoarseHOIScore	接近商业软件 Kling 1.5 的水平
最佳商业模型 (Kling 1.5) CoarseHOIScore	42.72%
最佳开源模型 (CogVideoX-5B) CoarseHOIScore	32.84%
Hailuo CoarseHOIScore	39.56%
Dreamina CoarseHOIScore	36.36%
评估prompt数量	306 条（乐器、交通工具、厨具等）
人工验证耗时	7 名标注员 × 8 周

亮点与洞察¶

首个百万级 HOI 视频生成数据集：填补了 T2V 领域在 HOI 方向的数据空白，所有视频均经过人工验证
MoME 字幕策略的幻觉消除思路：通过多个 MLLM 交叉验证而非依赖单个模型，是处理大规模自动标注中幻觉问题的有效范式
HOI 评估指标的设计：将 HOI 检测器引入生成评估是巧妙的跨任务迁移——比通用指标更能捕捉交互生成的核心质量
实验揭示的 gap：即使最先进的商业模型 Kling 1.5 在 CoarseHOIScore 上也仅 42.72%，说明 HOI 视频生成仍然是一个远未解决的难题

局限与展望¶

CoarseHOIScore 和 FineHOIScore 依赖现有 HOI 检测器和 MLLM 的能力，可能无法捕捉精细的交互质量差异
数据集主要来源于公开视频，场景和拍摄条件可能存在偏差
人工验证虽然保证了质量，但限制了进一步扩展的效率
字幕平均 153.8 词虽然比现有数据集长很多，但对于复杂 HOI 场景仍可能不够详细

评分¶

新颖性：⭐⭐⭐⭐（首个百万级 HOI 视频生成数据集 + MoME 幻觉消除 + 专用评估指标）
实用性：⭐⭐⭐⭐⭐（直接可用于提升 T2V 模型的 HOI 生成能力）
技术深度：⭐⭐⭐（数据集论文以工程为主，方法创新适中）
表达清晰度：⭐⭐⭐⭐（结构清晰，分析全面）