DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations¶

属性	值
会议	CVPR 2025
arXiv	2505.18096
代码	项目页面
领域	人体理解 / 3D 说话人头生成
关键词	dual-speaker, talking head, listener modeling, role transition, 3D face animation

一句话总结¶

提出 DualTalk——首个统一建模说话者和倾听者行为的多轮双人交互 3D 说话人头生成框架，配套构建了包含 50 小时、1000+ 身份的双人对话数据集。

研究背景与动机¶

领域现状¶

3D 说话人头生成是计算机视觉的活跃研究方向，在客服、远程办公、教育和娱乐中有广泛应用。现有方法要么只建模说话行为（如 FaceFormer、CodeTalker、SelfTalk），要么只建模倾听行为（如 Learning2Listen），二者独立发展。

现有痛点¶

说话者和倾听者割裂建模：真实对话中人需要在说话和倾听之间无缝切换，表情随对方反馈动态调整。单角色模型无法捕捉这种交互动态
仅音频驱动的局限：Audio2Photoreal 等方法仅用音频建模，缺少对方面部表情的视觉反馈，无法实现基于对方表情的自适应调整
短时反应 vs 连续对话：倾听者模型通常只生成简短、孤立的反应（几秒钟），不支持多轮连续对话中的长时间交互
缺乏双人交互数据集：现有 3D 人脸数据集（VOCASET、BIWI 等）不包含交互信息，L2L 数据集虽有交互但不支持多轮对话

本文目标¶

定义多轮双人交互 3D 说话人头生成新任务：给定双方音频和 Speaker-A 的面部运动，生成 Speaker-B 在整个多轮对话过程中的面部运动（包括说话和倾听两种状态）。

切入角度与核心 idea¶

将对话参与者视为在两种状态（说话/倾听）间切换的统一实体，用单一框架同时建模两种行为；通过跨模态时序增强和双人交互模块捕捉发言者的言语-视觉信号与倾听者反馈之间的动态耦合。

方法详解¶

整体框架¶

DualTalk 包含四个模块：(1) Dual-Speaker Joint Encoder——分别编码双方音频和 Speaker-A 的 blendshape；(2) Cross-Modal Temporal Enhancer——跨模态注意力 + BiLSTM 对齐时序特征；(3) Dual-Speaker Interaction Module——Transformer 编解码器建模双人动态；(4) Expressive Synthesis Module——自适应表情调制 + blendshape 参数预测。

关键设计 1：Dual-Speaker Joint Encoder¶

功能：将双方音频和 Speaker-A 的面部运动编码到统一特征空间
核心思路：两个独立的 Wav2Vec 2.0 编码器分别处理 Speaker-A 和 Speaker-B 的音频 \(\mathbf{A}_A\), \(\mathbf{A}_B\)，线性投影到共享维度 \(d\)。同时，两层全连接网络 + ReLU 编码 Speaker-A 的 56 维 blendshape 系数 \(\mathbf{M}_A\)
设计动机：双方音频提供语音内容和韵律信息，Speaker-A 的 blendshape 提供视觉反馈。分别编码后投影到共享空间，便于后续跨模态融合

功能：对齐音频和面部运动的时序特征，确保跨帧一致性
核心思路：先用 cross-attention（\(Q = \mathbf{Z}_A\), \(K = V = \mathbf{M}'_A\)）让 blendshape 特征受音频调制；再用 BiLSTM 捕获前后文时序依赖；最后将原始音频特征 \(\mathbf{Z}_A\) 与时序增强特征 \(\mathbf{T}\) 拼接
设计动机：音频和面部运动的时间尺度不同（音频采样率 16kHz vs 面部 30fps），跨模态注意力实现对齐；BiLSTM 的双向结构确保模型同时利用过去和未来上下文，这对于自然的面部动画至关重要

关键设计 3：Dual-Speaker Interaction Module + Expressive Synthesis¶

功能：建模双人交互动态并生成表情丰富的面部动画
核心思路：
- Transformer Encoder 捕获长距离依赖和复杂交互模式
- Modal Alignment Attention（受 FaceFormer 启发的偏置注意力）对齐时序信息
- Transformer Decoder 迭代精炼生成上下文丰富的表示
- 自适应表情调制：\(\mathbf{D}' = \mathbf{D} + \alpha \cdot \sigma(\mathbf{D}\mathbf{W}_m + \mathbf{b}_m)\)
- 最终线性层映射到 56 维 blendshape 参数
设计动机：Transformer 架构适合建模长序列中的远距离交互关系。自适应表情调制引入了根据上下文动态调整表情强度的能力
损失函数：基于 blendshape 参数的回归损失（文中实验详述）

实验关键数据¶

数据集对比¶

数据集	时长	身份数	交互	多轮
VOCASET	0.5h	12	✗	✗
L2L	72h	6	✓	✗
DualTalk	50h	1000+	✓	✓

首个同时具备交互和多轮对话的大规模 3D 面部数据集，平均每段对话 2.5 轮。

主实验表（说话表现 Frechet Distance ↓）¶

方法	FD-EXP	FD-JAW	FD-POSE
FaceFormer	34.90	5.40	8.00
CodeTalker	48.57	6.89	10.74
SelfTalk	35.77	5.49	8.14
L2L	24.61	3.69	7.08
DualTalk	11.14	1.90	3.83

DualTalk 在所有表情/下颌/姿态指标上大幅领先，FD-EXP 降低 55%（相比 L2L）。

倾听行为表现¶

方法	SID-EXP ↑	SID-JAW ↑	SID-POSE ↑
FaceFormer	0.54	0.36	0.50
L2L	2.86	1.89	1.19
DualTalk	3.48	2.23	1.72

DualTalk 生成的倾听反应更丰富多样（SID 越高表示多样性越好）。

关键发现¶

纯说话模型（FaceFormer, CodeTalker）SID 接近 0，即生成的倾听反应几乎是静止的
DualTalk 在跨轮次的角色转换上保持连贯，不出现突变
MSE 指标上 DualTalk 也一致最优
rPCC（皮尔逊相关系数误差）显示 DualTalk 生成的时间相关性最接近真实对话

亮点与洞察¶

任务定义的开创性：首次明确提出"多轮双人交互"任务，填补了说话/倾听分离建模的研究空白
统一框架设计：不分别训练说话和倾听模型，单一模型处理角色切换，更符合人类对话的实际情况
数据集规模与多样性：50 小时、1000+ 身份、双通道音频、多轮标注，为后续研究提供了坚实基础
性能提升显著：FD-EXP 从 24.61 降到 11.14（L2L→DualTalk），说明双人交互建模带来的增益巨大

局限性¶

仅用 blendshape 系数表示面部运动，精细度受限于 56 维参数的表达力
数据集来源于特定的对话场景，可能不能完全覆盖所有情感和文化背景
需要 Speaker-A 的真实面部运动作为输入，在没有视觉输入的纯音频场景无法应用
多轮对话的评估指标尚不完善，如何量化"角色切换自然度"有待进一步研究

评分¶

⭐⭐⭐⭐ — 新任务定义有开创性，统一框架设计合理，配套数据集具有长期研究价值。实验结果说服力强，但 blendshape 表达力和评估指标可进一步完善

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations¶

一句话总结¶

研究背景与动机¶

领域现状¶

现有痛点¶

本文目标¶

切入角度与核心 idea¶

方法详解¶

整体框架¶

关键设计 1：Dual-Speaker Joint Encoder¶

关键设计 3：Dual-Speaker Interaction Module + Expressive Synthesis¶

实验关键数据¶

数据集对比¶

主实验表（说话表现 Frechet Distance ↓）¶

倾听行为表现¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

评分¶

相关论文¶

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations¶

一句话总结¶

研究背景与动机¶

领域现状¶

现有痛点¶

本文目标¶

切入角度与核心 idea¶

方法详解¶

整体框架¶

关键设计 1：Dual-Speaker Joint Encoder¶

关键设计 2：Cross-Modal Temporal Enhancer¶

关键设计 3：Dual-Speaker Interaction Module + Expressive Synthesis¶

实验关键数据¶

数据集对比¶

主实验表（说话表现 Frechet Distance ↓）¶

倾听行为表现¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

评分¶

相关论文¶