Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues¶

会议: ACL 2025
arXiv: 2506.00958
领域: LLM NLP
关键词: 非语言沟通, 多模态对话, 面部表情, 肢体语言, 向量量化

一句话总结¶

提出 VENUS——首个大规模多模态对话数据集（89,459 段对话、14,910 小时），包含时间对齐的文本、3D 面部表情和肢体语言标注；基于该数据集开发 MARS 多模态语言模型，通过 VQ-VAE 将非语言线索离散化后与文本统一建模，实现对话中文本与非语言动作的联合理解和生成。

研究背景与动机¶

人类对话是语言与非语言信号的复杂交互——面部表情、手势、肢体语言传达情感和意图
例如 "你知道几点了吗？" 配合不同表情传达完全不同的含义（中性=询问 vs 皱眉+抱胸=责备）
现有 LLM 局限于文本，忽略非语言沟通；少数工作仅关注面部表情，忽略肢体语言
核心瓶颈：缺乏同时标注文本、面部表情和肢体语言的大规模训练数据集
现有数据集要么规模小、要么缺少非语言标注（如 YTD-18M 有视频但无 3D 标注；BEAT/EMAGE 有 3D 但非对话场景）

方法详解¶

整体框架¶

数据集 VENUS 构建流水线（从 YouTube 播客视频中自动提取）：

数据采集与过滤：
下载 YouTube 播客视频（869 个频道、27,128 个视频）
缩略图人脸检测过滤（F1）→ 去除开头 1 分钟（P1）→ 切分为 10 分钟片段（P1 & F2，FPS=25）
语音处理：
PyAnnote 语音分段：仅保留恰好两个说话人的视频（F3）
WhisperX 语言检测（仅保留英语 F4）+ 时间对齐语音转录（P2）
视觉说话人识别：
Light-ASD 主动说话人检测（P3）+ 人物检测器裁剪说话人图像
MobileNet 特征提取 + 余弦相似度跨帧对齐说话人身份（P4）
非语言线索提取：
EMOCA-v2 提取面部表情参数（FLAME，156 维 → 53 维：50 表情 + 3 下颌）
OSX 提取全身参数（SMPL-X，179 维 → 117 维：27 上身 + 45×2 双手）
Savitzky-Golay 平滑处理保证时间连续性

模型 MARS： - VQ-VAE 量化：分别训练 Face VQ-VAE 和 Body VQ-VAE，将连续非语言参数序列离散化为 codebook token - 统一自回归建模：输入序列按时间戳交错排列文本 token、面部 token、肢体 token，使用 Transformer 进行统一 next-token prediction

关键设计¶

分离式 VQ-VAE：面部和肢体使用独立的编码器-量化器-解码器，分别捕获不同粒度的运动模式
损失函数：commitment loss（codebook 学习）+ 分组重建损失（表情/下颌/上身/双手各自 L1 loss）+ 运动速度损失（保持时间连续性）
EMA codebook 更新：使用指数移动平均稳定训练
层次化 token 预测：在同一时间步，先预测文本 token，再条件预测面部和肢体 token code index

实验关键数据¶

主实验¶

VENUS 数据集统计： | 指标 | 数值 | |------|------| | 对话数 | 89,459 | | 回合数 | 1,114,328 | | 总时长 | 14,910 小时 | | 句子数 | 7,118,654 | | 唯一词数 | 527,270 | | 平均回合/对话 | 21 | | 平均每回合非语言帧数 | 547 | | 非语言表情总量 | 10 亿 |

与现有数据集对比： | 数据集 | 对话数 | 回合数 | 时长(h) | 文本 | 视频 | 非语言 | |--------|--------|--------|---------|------|------|--------| | IEMOCAP | 151 | 7,333 | 12 | ✓ | ✓ | ✗ | | YTD-18M | 18M | 54M | 30K | ✓ | ✓ | ✗ | | BEAT | — | — | 76 | ✓ | ✗ | ✓ | | EMAGE | — | — | 60 | ✓ | ✗ | ✓ | | VENUS | 89,459 | 1,114,328 | 14,910 | ✓ | ✓ | ✓ |

→ VENUS 是首个同时包含文本、视频和非语言 3D 标注的大规模对话数据集

VQ-VAE 重建质量（与 SOTA 对比）： | 方法 | Face VMSE↓ | Face LVD↓ | Face Diversity↑ | Body VMSE↓ | Body LVD↓ | |------|-----------|-----------|-----------------|-----------|-----------| | Ng et al. (2023) | 0.5787 | 0.4422 | 7.5866 | 2.6424 | 0.1268 | | Guo et al. (2024) | 0.5474 | 0.4160 | 7.7693 | 2.0608 | 0.0994 | | Ours | 0.5106 | 0.4020 | 7.8430 | 1.9946 | 0.0962 |

→ 在面部和肢体重建上全面超越先前方法，同时保持更高的多样性

关键发现¶

VENUS 的非语言表情分布丰富——t-SNE 可视化显示面部表情在无情绪标签下自然聚类为有意义的情绪模式
肢体语言同样形成良好聚类，对应常见对话手势（如点头、手势强调等）
每段对话平均 21 轮对话、547 帧非语言表情，支持多轮长对话建模
L1 重建损失优于 smooth L1 和 L2 损失（消融实验证实）
面部表情和肢体语言使用独立 codebook 效果优于合并建模

亮点与洞察¶

填补关键空白：首个将文本、3D 面部表情和 3D 肢体语言三者对齐的大规模对话数据集，使非语言沟通建模成为可能
流水线可扩展：完全自动化的数据构建流水线，可持续从 YouTube 获取新数据
统一建模思路：将非语言线索离散化后与文本共享同一个自回归框架，优雅简洁
实际应用前景：虚拟角色、数字人、社交机器人、沉浸式对话 AI 等场景的基础设施级贡献
分析详实：对数据集质量的多维分析（分布可视化、消融实验、重建指标）增强可信度

局限性¶

仅覆盖英语播客对话，跨语言和跨文化的非语言表达差异未考虑
3D 参数依赖伪标签（EMOCA-v2、OSX 的预测结果），存在自动提取误差
仅关注两人对话场景，多人对话的复杂交互未覆盖
MARS 模型的规模和架构较初步，未充分利用大规模预训练 LLM
生成的非语言动作的感知质量尚缺乏大规模用户研究验证

评分¶

创新性: ★★★★★ — 首个文本+面部+肢体三模态对齐的大规模对话数据集，开创性贡献
实验质量: ★★★★☆ — VQ-VAE 消融详实，MARS 评估较初步但证明概念可行性
实用价值: ★★★★★ — 数据集和代码开源，为非语言沟通研究提供基础设施
写作质量: ★★★★☆ — 流水线描述清晰，但公式密度较高可能影响可读性