Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction¶

会议: ACL 2025
arXiv: 2505.21043
代码: github.com/russelsa/mm-vap
领域: others
关键词: Turn-Taking, Multimodal, Facial Action Units, Predictive Model, Video Conferencing

一句话总结¶

提出 MM-VAP 多模态预测性话轮转换模型，将面部表情、头部姿态和注视方向等视觉线索引入语音预测模型，在视频会议语料上将 hold/shift 预测准确率从 79% 提升至 84%。

研究背景与动机¶

核心事实：两人对话中话轮之间平均仅 200ms 静默，而语言生成至少需要 600ms，说明话轮转换是预测性的——听者在说者尚未说完时就开始规划下一轮。
当前问题：几乎所有预测性话轮转换模型（PTTM）仅依赖语音特征，忽略了视觉线索。这在电话场景下可接受，但在互相可见的场景（视频会议、面对面）中是一个明显的缺陷。
心理语言学证据：研究表明，当受试者同时看到音频和视频时，判断话轮结束点的准确率更高（Barkhuysen et al., 2008）；眉毛皱起可加速问句识别（Nota et al., 2023）。
研究空白：视觉线索是否能提升 PTTM 性能尚不明确，相关工作极少且数据规模小。

方法详解¶

整体框架¶

MM-VAP 基于 SOTA 纯语音模型 VAP (Ekstedt & Skantze, 2022) 扩展而来。VAP 使用 Transformer 持续预测未来 2 秒内的说话活动（Voice Activity Projection），以 8 个二值 bin 编码两位说话者的活动状态，共 256 种 VAP 状态。MM-VAP 在此基础上融合了视觉特征。

关键设计¶

视觉特征提取：使用 OpenFace 从视频的每一帧提取 60 维视觉特征向量，包括：
- 17 个面部动作单元（FAU）：描述面部肌肉运动（如下颌张开、嘴唇运动），强度 0-5
- 双眼注视向量：每眼一个 3D 单位向量
- 头部位置（X,Y,Z）和旋转（roll, pitch, yaw）
- 15 个面部关键点（眉毛、下颌、鼻子、嘴唇区域）
模型架构（Late Fusion）：
- 音频通过预训练特征提取器得到 256 维特征向量（50Hz）
- 视觉特征通过 MLP 投影到 256 维，从 30Hz 线性插值上采样至 50Hz
- 先用 Self-Attention 块分别建模每个说话者的音频和视频时序模式
- 再用 Cross-Attention 块学习同一说话者的音视频交互
- 最后用 Cross-Attention 块学习两个说话者之间的跨模态时序模式
- 因果掩码确保模型只能从过去帧预测
- 总参数量 8.7M（VAP 为 5.8M）
ASR 对齐验证：首次在 PTTM 中使用自动语音识别替代手动对齐来提取 Voice Activity 标签，更贴近真实部署场景。在 Switchboard 上验证 ASR 导致的性能下降可控。

损失函数¶

交叉熵损失，训练模型输出的 256 维 softmax 分布与 256 种 VAP 状态标签之间的交叉熵。

实验¶

主实验结果（Candor 视频会议语料，710 小时）¶

模型	F₁ (加权)	F₁ (Hold)	F₁ (Shift)	平衡准确率
Dummy (全 Hold)	0.70	0.82	0.00	50%
VAP (纯语音)	0.83	0.89	0.71	79%
MM-VAP (Late)	0.86	0.90	0.77	83%
MM-VAP (Early)	0.87	0.91	0.79	84%

视觉线索的加入使 Shift 的 F₁ 提升了 6-8 个百分点（0.71→0.77/0.79），平衡准确率提升 4-5 个百分点。

按沉默时长分层分析（首次在 PTTM 中进行）¶

沉默时长 (FTO)	VAP 平衡准确率	MM-VAP 平衡准确率
> 0 ms	79%	83%
> 250 ms	79%	83%
> 500 ms	77%	81%
> 750 ms	75%	78%
> 1000 ms	73%	76%

MM-VAP 在所有沉默时长上都优于 VAP，且两者性能均随沉默时长增加而下降（长间隔更难预测）。

消融实验¶

视觉特征子集	相对于 VAP 的 F₁(Shift) 提升
完整视觉特征	+6-8%
仅面部动作单元（FAU）	贡献最大
仅头部姿态	有提升但较小
仅注视方向	有提升但较小
仅面部关键点	有提升但最小

面部表情（通过面部动作单元编码）是最重要的视觉线索，与面部动作单元分析的发现一致——话轮转换前下一说者的嘴部、嘴唇、下颌和下巴运动显著增强。

关键发现¶

视觉线索确实有效：在互相可见的场景中，视觉特征对话轮转换预测有显著贡献
面部表情是最关键的视觉线索：FAU 的贡献远超注视和头部姿态
ASR 对齐可行：自动语音识别导致的对齐误差约 480ms，但对 PTTM 性能影响有限
长沉默更难预测：所有模型在长间隔场景下性能下降，但视觉线索在各时长上都有帮助

亮点¶

首次在大规模语料（710 小时）上系统验证了视觉线索对预测性话轮转换的价值
首创按沉默时长分层分析 PTTM 性能的评估方法，比传统的单一总体指标更有信息量
验证了 ASR 替代手动对齐的可行性，大幅降低了数据标注门槛
代码开源，便于复现和后续研究

局限性¶

仅在视频会议场景下验证，未测试面对面交互或更自然的场景
OpenFace 的面部特征提取在部分视频中失败（238/1656 sessions），被排除在外
视觉特征提取为帧级别处理，计算成本较高，可能不适合实时部署
未探索更先进的视觉特征提取器（如基于 Transformer 的面部分析模型）
Candor 语料仅包含美式英语的休闲对话，文化和语言的泛化性有待验证

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	5
写作质量	5
总分	4.5