DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation¶

会议: ICCV 2025
arXiv: 2410.07151
代码: 项目页面
领域: 图像生成 / 人脸视频生成
关键词: 人脸视频数据集, 视频生成, 文本到视频, 图像到视频, 扩散模型

一句话总结¶

推出 DH-FaceVid-1K，一个包含 1,200+ 小时、270,043 个视频片段、20,000+ 个人身份的大规模高质量人脸视频数据集，重点解决现有数据集中亚洲人脸严重不足的问题，并通过系统实验验证了数据规模与模型参数的缩放定律。

研究背景与动机¶

人脸视频生成是当前视频生成领域最热门的任务之一，支撑着说话人脸视频、文本驱动视频生成等多种应用。然而，许多先进方法依赖于不公开的私有数据，而公开数据集存在三个核心限制：

总时长不足：CelebV-HQ 68h、CelebV-Text 279h，远不能满足预训练需求

质量与数量的权衡：VoxCeleb2 有 2,400h 但分辨率仅 224×224；TalkingHead-1KH 分辨率同样受限

多样性不足：现有数据集中亚洲人脸严重缺乏，限制了模型在不同种族上的泛化能力

此外，论文识别了现有公开数据集的多个常见质量问题：低清晰度/分辨率、单帧多人脸、手部/物体遮挡、字幕/噪声叠加等，这些问题严重影响训练效果。

方法详解¶

整体框架¶

DH-FaceVid-1K 的构建分为四个关键阶段： 1. 原始视频采集：从众包平台收集采访节目和 vlog 类视频（单人、专业环境、高质量设备），原始素材超过 2,000 小时 2. 人脸检测与裁剪：裁剪至包含完整面部和上肩区域，确保人脸区域至少 256×256 3. 噪声过滤：字幕检测（OCR）、黑边检测、多人脸排除、手部/遮挡物手动筛选、模糊增强（CodeFormer） 4. 标注生成：使用 DWPose 提取面部关键点，PLLaVA 生成初始文本描述，100+ 人工标注员历时 6 个月交叉验证

关键设计¶

多种族覆盖与亚洲人脸补充: 自采数据约 1,000 小时（95% 亚洲面孔），另从 CelebV-HQ、CelebV-Text、TalkingHead-1KH 清洗出 200 小时补充数据，最终数据集中亚洲面孔占 80%、白人 11%、非裔 4%、其他 5%。通过专注于亚洲人脸的补充，解决了现有数据集中的人口学偏差问题。
严格的数据质量控制流程: (1) 字幕检测：随机采样 5 帧进行 OCR，超过 10 字符判定有字幕；(2) 黑边检测：检测超过 20 像素的连续黑边区域；(3) 人脸过滤：OpenCV 检测多人脸并丢弃，FaceXFormer 过滤 22 岁以下个体；(4) 两阶段人工验证：第一阶段按 ISO 2859 标准交叉核验静态和动态属性，第二阶段对标记问题样本做进一步审查。
音频过滤与唇音同步: 针对非英语语音 SyncNet 评分偏差问题，重新训练 SyncNet 模型对每个视频生成同步评分，过滤唇音同步差的样本，确保数据集可用于音频驱动的说话人脸生成任务。

损失函数 / 训练策略¶

作为数据集论文，本身无训练策略。但对下游模型训练给出了重要经验： - 2B 参数 DiT 模型最佳数据规模约 600 小时 - 5B/6B 参数模型需要完整 1,000+ 小时数据才能发挥优势 - 小模型在大数据集上出现过拟合，大模型在小数据集上训练不稳定

实验关键数据¶

主实验（Text-to-Video）¶

方法	数据集	FVD (↓)	FID (↓)	CLIP (↑)
CogVideoX	HDTF	127.88	17.83	0.9247
CogVideoX	CelebV-HQ	137.62	17.31	0.9305
CogVideoX	CelebV-Text	129.59	15.82	0.9388
CogVideoX	DH-FaceVid-1K	98.01	11.73	0.9401
EasyAnimate	CelebV-Text	121.22	16.53	0.9274
EasyAnimate	DH-FaceVid-1K	113.27	13.91	0.9240

消融实验（数据规模缩放定律，CogVideoX T2V）¶

数据规模	2B FVD	2B FID	5B FVD	5B FID
100h	215.06	17.01	237.52	18.17
200h	185.06	16.23	203.52	16.37
400h	177.18	14.16	180.99	14.25
600h	145.14	12.50	143.25	12.83
800h	148.82	13.15	121.63	12.05
1000h	150.27	13.31	98.01	11.73

2B 模型在 600h 时达到性能拐点（再增加数据反而略微下降），5B 模型则持续受益于更多数据。

关键发现¶

所有模型在 DH-FaceVid-1K 上训练后均显著超越公共数据集：CogVideoX 在 T2V 上 FVD 从 129.59 降至 98.01（降 24.3%），FID 从 15.82 降至 11.73（降 25.9%）
缩放定律：2B 模型约需 600h 数据达到最优性价比，5B+ 模型需要完整数据集才能充分发挥
DiT vs UNet：DiT 架构（Latte、CogVideoX）整体优于 UNet 架构（AnimateDiff），但训练资源需求更高
CelebV-Text 训练的模型生成亚洲面孔时出现明显伪影（随机手部噪声、多人脸），DH-FaceVid-1K 训练的模型无此问题
I2V 任务同样受益：CogVideoX I2V 在 DH-FaceVid-1K 上 FVD 92.31 vs CelebV-Text 123.25

亮点与洞察¶

数据工程价值突出：100+ 标注员 6 个月的人工质量控制流程，包含两阶段交叉验证，确保了业界领先的数据质量
缩放定律实验提供了实用指导：不同参数规模的模型对应不同的最优数据量，避免了盲目堆数据
DiT vs UNet 的经验性对比为研究者选择 backbone 提供了有价值的参考
解决了亚洲人脸数据缺乏的实际痛点，对实际应用部署具有重要意义

局限与展望¶

亚洲面孔占 80% 导致其他种族仍然不足，可能引入新的偏差
数据集获取流程严格（需提交申请表、签署协议），可能限制学术社区的广泛使用
未探索更长视频（>15s）生成的效果
缺少与最新 Hallo3 等专门的 talking head 方法的直接对比
音频驱动生成任务的实验较少

评分¶

新颖性: ⭐⭐⭐ 数据集构建流程规范但方法论新意有限，核心贡献在数据本身
实验充分度: ⭐⭐⭐⭐⭐ 5 个 T2V 模型 + 5 个 I2V 模型 + 6 个数据规模 + 2 种参数规模的系统实验
写作质量: ⭐⭐⭐⭐ 结构清晰，数据统计完整，缩放定律分析有深度
价值: ⭐⭐⭐⭐ 填补了高质量大规模人脸视频数据集的空白，缩放定律分析具有实用指导意义