Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues¶
会议: ACL 2025
arXiv: 2506.00958
领域: LLM NLP
关键词: 非语言沟通, 多模态对话, 面部表情, 肢体语言, 向量量化
一句话总结¶
提出 VENUS——首个大规模多模态对话数据集(89,459 段对话、14,910 小时),包含时间对齐的文本、3D 面部表情和肢体语言标注;基于该数据集开发 MARS 多模态语言模型,通过 VQ-VAE 将非语言线索离散化后与文本统一建模,实现对话中文本与非语言动作的联合理解和生成。
研究背景与动机¶
- 人类对话是语言与非语言信号的复杂交互——面部表情、手势、肢体语言传达情感和意图
- 例如 "你知道几点了吗?" 配合不同表情传达完全不同的含义(中性=询问 vs 皱眉+抱胸=责备)
- 现有 LLM 局限于文本,忽略非语言沟通;少数工作仅关注面部表情,忽略肢体语言
- 核心瓶颈:缺乏同时标注文本、面部表情和肢体语言的大规模训练数据集
- 现有数据集要么规模小、要么缺少非语言标注(如 YTD-18M 有视频但无 3D 标注;BEAT/EMAGE 有 3D 但非对话场景)
方法详解¶
整体框架¶
数据集 VENUS 构建流水线(从 YouTube 播客视频中自动提取):
- 数据采集与过滤:
- 下载 YouTube 播客视频(869 个频道、27,128 个视频)
-
缩略图人脸检测过滤(F1)→ 去除开头 1 分钟(P1)→ 切分为 10 分钟片段(P1 & F2,FPS=25)
-
语音处理:
- PyAnnote 语音分段:仅保留恰好两个说话人的视频(F3)
-
WhisperX 语言检测(仅保留英语 F4)+ 时间对齐语音转录(P2)
-
视觉说话人识别:
- Light-ASD 主动说话人检测(P3)+ 人物检测器裁剪说话人图像
-
MobileNet 特征提取 + 余弦相似度跨帧对齐说话人身份(P4)
-
非语言线索提取:
- EMOCA-v2 提取面部表情参数(FLAME,156 维 → 53 维:50 表情 + 3 下颌)
- OSX 提取全身参数(SMPL-X,179 维 → 117 维:27 上身 + 45×2 双手)
- Savitzky-Golay 平滑处理保证时间连续性
模型 MARS: - VQ-VAE 量化:分别训练 Face VQ-VAE 和 Body VQ-VAE,将连续非语言参数序列离散化为 codebook token - 统一自回归建模:输入序列按时间戳交错排列文本 token、面部 token、肢体 token,使用 Transformer 进行统一 next-token prediction
关键设计¶
- 分离式 VQ-VAE:面部和肢体使用独立的编码器-量化器-解码器,分别捕获不同粒度的运动模式
- 损失函数:commitment loss(codebook 学习)+ 分组重建损失(表情/下颌/上身/双手各自 L1 loss)+ 运动速度损失(保持时间连续性)
- EMA codebook 更新:使用指数移动平均稳定训练
- 层次化 token 预测:在同一时间步,先预测文本 token,再条件预测面部和肢体 token code index
实验关键数据¶
主实验¶
VENUS 数据集统计: | 指标 | 数值 | |------|------| | 对话数 | 89,459 | | 回合数 | 1,114,328 | | 总时长 | 14,910 小时 | | 句子数 | 7,118,654 | | 唯一词数 | 527,270 | | 平均回合/对话 | 21 | | 平均每回合非语言帧数 | 547 | | 非语言表情总量 | 10 亿 |
与现有数据集对比: | 数据集 | 对话数 | 回合数 | 时长(h) | 文本 | 视频 | 非语言 | |--------|--------|--------|---------|------|------|--------| | IEMOCAP | 151 | 7,333 | 12 | ✓ | ✓ | ✗ | | YTD-18M | 18M | 54M | 30K | ✓ | ✓ | ✗ | | BEAT | — | — | 76 | ✓ | ✗ | ✓ | | EMAGE | — | — | 60 | ✓ | ✗ | ✓ | | VENUS | 89,459 | 1,114,328 | 14,910 | ✓ | ✓ | ✓ |
→ VENUS 是首个同时包含文本、视频和非语言 3D 标注的大规模对话数据集
VQ-VAE 重建质量(与 SOTA 对比): | 方法 | Face VMSE↓ | Face LVD↓ | Face Diversity↑ | Body VMSE↓ | Body LVD↓ | |------|-----------|-----------|-----------------|-----------|-----------| | Ng et al. (2023) | 0.5787 | 0.4422 | 7.5866 | 2.6424 | 0.1268 | | Guo et al. (2024) | 0.5474 | 0.4160 | 7.7693 | 2.0608 | 0.0994 | | Ours | 0.5106 | 0.4020 | 7.8430 | 1.9946 | 0.0962 |
→ 在面部和肢体重建上全面超越先前方法,同时保持更高的多样性
关键发现¶
- VENUS 的非语言表情分布丰富——t-SNE 可视化显示面部表情在无情绪标签下自然聚类为有意义的情绪模式
- 肢体语言同样形成良好聚类,对应常见对话手势(如点头、手势强调等)
- 每段对话平均 21 轮对话、547 帧非语言表情,支持多轮长对话建模
- L1 重建损失优于 smooth L1 和 L2 损失(消融实验证实)
- 面部表情和肢体语言使用独立 codebook 效果优于合并建模
亮点与洞察¶
- 填补关键空白:首个将文本、3D 面部表情和 3D 肢体语言三者对齐的大规模对话数据集,使非语言沟通建模成为可能
- 流水线可扩展:完全自动化的数据构建流水线,可持续从 YouTube 获取新数据
- 统一建模思路:将非语言线索离散化后与文本共享同一个自回归框架,优雅简洁
- 实际应用前景:虚拟角色、数字人、社交机器人、沉浸式对话 AI 等场景的基础设施级贡献
- 分析详实:对数据集质量的多维分析(分布可视化、消融实验、重建指标)增强可信度
局限性¶
- 仅覆盖英语播客对话,跨语言和跨文化的非语言表达差异未考虑
- 3D 参数依赖伪标签(EMOCA-v2、OSX 的预测结果),存在自动提取误差
- 仅关注两人对话场景,多人对话的复杂交互未覆盖
- MARS 模型的规模和架构较初步,未充分利用大规模预训练 LLM
- 生成的非语言动作的感知质量尚缺乏大规模用户研究验证
相关工作¶
- 多模态 LLM:LLaVA (Liu et al., 2024)、Qwen-VL (Bai et al., 2023)、MiniGPT-4 (Chen et al., 2023)、VideoChat (Li et al., 2023)
- 视频对话学习:Champagne/YTD-18M (Han et al., 2023)、MultiDialog (Park et al., 2024)
- 人体运动合成:MotionGPT (Wu et al., 2024);EMAGE (Liu et al., 2024a) 基于 3D 手势生成
- VQ-VAE:Van Den Oord et al. (2017);Razavi et al. (2019) 分层 VQ-VAE
评分¶
- 创新性: ★★★★★ — 首个文本+面部+肢体三模态对齐的大规模对话数据集,开创性贡献
- 实验质量: ★★★★☆ — VQ-VAE 消融详实,MARS 评估较初步但证明概念可行性
- 实用价值: ★★★★★ — 数据集和代码开源,为非语言沟通研究提供基础设施
- 写作质量: ★★★★☆ — 流水线描述清晰,但公式密度较高可能影响可读性