OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2505.21448
代码: https://ziqiaopeng.github.io/OmniSync/ (项目页面)
领域: 视频理解 / 唇形同步 / 扩散模型
关键词: 唇形同步, Diffusion Transformer, Flow Matching, Classifier-Free Guidance, AIGC视频
一句话总结¶
OmniSync提出了一种基于Diffusion Transformer的通用唇形同步框架,通过无掩码训练范式、基于Flow Matching的渐进噪声初始化和动态时空CFG三大创新,在真实视频和AI生成视频上都大幅超越先前方法,尤其在风格化角色的唇形同步上达到87.78%成功率(之前最佳67.78%)。
背景与动机¶
唇形同步(Lip Synchronization)的目标是让视频中说话者的嘴唇运动与目标音频对齐,广泛应用于电影配音、数字人、远程会议等场景。随着AI视频生成(T2V模型如Kling、Wan、Hunyuan等)的兴起,唇形同步从一项专业技术发展为视频生成生态的基础能力。
现有方法主要存在三大痛点: 1. 依赖参考帧+掩码修补:传统方法从参考帧提取外观、用掩码遮住目标帧嘴巴区域再生成。这导致边界伪影、身份漂移,且头部姿态不一致时效果急剧下降 2. 唇形泄漏问题:音频信号比视觉信号弱得多,模型容易"偷看"原始视频的唇形而非完全替换为目标音频驱动的嘴型 3. 无法处理风格化内容:依赖人脸检测和对齐的方法在非真人角色(卡通、动画、非人类实体)上直接失效,而这恰恰是T2V模型擅长生成的内容
此外,学术界完全缺少针对AI生成视频中唇形同步的评估基准。
核心问题¶
如何构建一个通用的唇形同步框架,既能处理真实人脸视频,又能在AI生成的风格化角色视频上工作?核心挑战在于:(1) 不依赖人脸检测/对齐等传统预处理,(2) 克服音频作为弱条件信号的固有困难,(3) 在修改嘴唇的同时严格保持身份、姿态和背景不变。
方法详解¶
整体框架¶
OmniSync的pipeline很直观:给定一段源视频 \(V_{cd}\) 和目标音频 \(A_{ab}\),模型直接输出唇形与目标音频同步的视频 \(V_{ab}\),不需要任何掩码或参考帧。整个系统基于Diffusion Transformer (DiT),使用Flow Matching作为训练目标。音频特征使用预训练Whisper编码器提取,文本条件使用T5编码器(训练时用描述性文本标签如"A person speaking loudly with clear facial and tooth movements"来增强唇形清晰度)。
核心创新包含三个模块,分别解决训练范式、推理稳定性和弱音频条件信号三个问题。
关键设计¶
- 无掩码训练范式 (Mask-Free Training Paradigm):抛弃传统的"遮住嘴巴→根据音频补全"的模式,转而让DiT直接学习跨帧编辑映射 \((V_{cd}, A_{ab}) \mapsto V_{ab}\)。关键难点是:直接帧编辑需要完美配对的训练数据(姿态/身份完全一致,只有嘴唇不同),这在实际中几乎不存在。作者巧妙地利用了扩散模型的渐进去噪特性,提出时间步依赖的数据采样策略:
- 高噪声时间步(\(t > 850\),负责生成面部基础结构):使用MEAD数据集的伪配对数据(实验室固定机位拍摄,同一人不同话语形成自然的姿态一致配对),让模型学会在保持姿态/身份的条件下构建面部结构
- 中低噪声时间步(\(t \leq 850\),负责唇形生成和细节精修):切换到多样性更强的YouTube非配对数据,学习泛化性更强的"音频→唇形"映射
训练损失为标准的Conditional Flow Matching (CFM) loss:\(\mathcal{L}_{CFM}(\theta) = \mathbb{E}[\|v_\theta(x_t, V_{cd}, A_{ab}, t) - u_t(x_t|V_{ab})\|^2_2]\)
-
基于Flow Matching的渐进噪声初始化 (Progressive Noise Initialization):推理时不从纯随机噪声开始去噪(这会在早期过程中因误差累积导致姿态偏移和身份漂移),而是将原始视频帧加入受控噪声:\(x_{init} = (1-\tau)V_{source} + \tau\epsilon\)(\(\tau=0.92\)),然后只执行后续50步去噪。相当于跳过了扩散过程的早期阶段(负责宏观结构),直接继承源视频的姿态和全局结构,让模型专注于嘴巴区域的编辑。这既保证了空间一致性,又降低了计算量。
-
动态时空Classifier-Free Guidance (DS-CFG):解决音频条件过弱的问题。标准CFG面临两难:scale高→唇形准但有伪影,scale低→视觉好但唇形不准。DS-CFG在两个维度做自适应:
- 空间维度:以嘴巴为中心构建高斯权重矩阵 \(\mathbf{G}_{spatial}(x,y)\),嘴巴处guidance最强(\(\omega_{peak}\)),远离嘴巴处最弱(\(\omega_{base}\)),确保只在需要改变的区域施加强音频引导
- 时间维度:guidance强度随去噪进程衰减 \(\omega(t) = \omega_{peak} \cdot (t/T)^\gamma\)(\(\gamma=1.5\)),早期强引导建立正确唇形,后期弱引导保护纹理细节
- 最终公式:\(\hat{\epsilon}_\theta = \epsilon_\theta(x_t, \varnothing, t) + \mathbf{G}_{spatial} \cdot \omega(t) \cdot [\epsilon_\theta(x_t, c, t) - \epsilon_\theta(x_t, \varnothing, t)]\)
损失函数 / 训练策略¶
- 训练目标:Conditional Flow Matching loss(学习速度场的L2损失)
- 训练规模:64×A100 GPU,batch size 64,80k步,80小时完成
- 优化器:AdamW, lr=1e-5
- 时间步阈值:\(t_{threshold} = 850\)
- 推理时噪声参数:\(\tau = 0.92\),50步去噪
- 文本条件:训练时用描述性prompt标注视频,推理时可通过prompt engineering控制唇形清晰度和运动幅度
实验关键数据¶
HDTF数据集(真实视频)¶
| 方法 | FID↓ | FVD↓ | CSIM↑ | NIQE↓ | BRISQUE↓ | HyperIQA↑ | LMD↓ | LSE-C↑ |
|---|---|---|---|---|---|---|---|---|
| Wav2Lip | 14.91 | 543.3 | 0.852 | 6.50 | 53.37 | 45.82 | 10.01 | 7.63 |
| IP-LAP | 9.51 | 325.7 | 0.809 | 6.53 | 54.40 | 50.09 | 7.70 | 7.26 |
| MuseTalk | 8.76 | 231.4 | 0.862 | 5.82 | 46.00 | 55.40 | 8.70 | 6.89 |
| LatentSync | 8.52 | 216.9 | 0.859 | 6.27 | 50.86 | 53.21 | 17.34 | 8.05 |
| OmniSync | 7.86 | 199.6 | 0.875 | 5.48 | 37.92 | 56.36 | 7.10 | 7.31 |
AIGC-LipSync Benchmark(AI生成视频)¶
| 方法 | FID↓ | FVD↓ | CSIM↑ | 生成成功率↑ | 风格化角色成功率↑ |
|---|---|---|---|---|---|
| Wav2Lip | 22.99 | 562.2 | 0.727 | 71.38% | 26.67% |
| MuseTalk | 17.67 | 297.6 | 0.667 | 92.20% | 67.78% |
| LatentSync | 15.37 | 263.1 | 0.751 | 74.96% | 35.56% |
| OmniSync | 10.68 | 211.4 | 0.808 | 97.40% | 87.78% |
用户评估(5分制,39人参与):OmniSync在唇形同步准确性(3.92)、身份保持(4.13)、时间稳定性(4.04)、图像质量(4.05)、视频真实感(3.87)五项指标上全面领先。
消融实验要点¶
| 变体 | FID↓ | FVD↓ | CSIM↑ | LSE-C↑ |
|---|---|---|---|---|
| 完整模型 | 15.71 | 287.2 | 0.814 | 7.06 |
| 去掉时间步依赖采样 | 21.55 | 549.8 | 0.727 | 7.00 |
| 去掉渐进噪声初始化 | 16.73 | 361.3 | 0.805 | 7.03 |
| 低静态CFG | - | - | - | 4.16 |
| 高静态CFG | 22.73 | 348.3 | 0.782 | 7.10 |
- 时间步依赖采样贡献最大:去掉后CSIM降10.7%,FVD从287→550,面部出现明显错位
- 渐进噪声初始化:去掉后FVD从287→361,时间一致性明显下降
- DS-CFG的平衡作用:低CFG唇形不准(LSE-C仅4.16),高CFG有伪影(FID=22.73),DS-CFG兼顾两者(LSE-C=7.06, FID=15.71)
亮点¶
- 时间步依赖采样是核心创意:利用扩散模型不同时间步学习不同内容的特性(早期→结构,中期→语义,晚期→细节),在不同阶段使用不同性质的训练数据。这个思路可以迁移到任何需要"局部编辑"的扩散模型任务
- 真正的无掩码设计:彻底抛弃人脸检测/对齐/掩码,使得方法可以处理卡通、非人类等风格化角色。AIGC-LipSync上87.78%的风格化角色成功率实质性证明了这一点
- DS-CFG的设计很精巧:在空间上用高斯加权、在时间上用幂次衰减,把CFG从全局一个数变成了时空自适应的控制场。这个思路对其他条件生成任务(如音频驱动的表情/动作生成)也有参考价值
- AIGC-LipSync Benchmark:首个针对AI生成视频唇形同步的评估基准(615个视频,含真人/风格化/非人类角色),填补了领域空白
- 工程扎实:64×A100训练80小时,支持无限时长推理,user study有39人评估、Cronbach's α=0.98
局限性 / 可改进方向¶
- LSE-C指标未最优:在HDTF上LatentSync的LSE-C(8.05)略高于OmniSync(7.31),因为LatentSync使用了SyncNet-based loss约束。未来可以考虑结合SyncNet损失进一步提升唇形精度
- 训练和推理成本较高:64×A100训练、推理需50步去噪,实时性和可及性受限
- 嘴巴中心定位问题:DS-CFG的空间高斯需要嘴巴中心坐标 \((x_m, y_m)\),对于极端风格化角色如何确定这个中心未详细讨论
- AIGC-LipSync Benchmark规模有限:615个视频,且视频来源集中在几个T2V模型,泛化性有待扩展
- 缺少与Portrait Animation方法的定量对比:附录中与EchoMimic、Hallo3、Sonic只做了定性比较
与相关工作的对比¶
- vs Wav2Lip:Wav2Lip开创了SyncNet监督的范式但视觉质量差、依赖人脸检测。OmniSync在FID上从14.91→7.86,在AIGC视频成功率上从71%→97%,全面超越
- vs LatentSync:同为扩散模型方法,但LatentSync仍依赖参考帧+掩码修补。OmniSync在视觉质量(FID/FVD/CSIM)全面领先,但LatentSync因SyncNet loss在LSE-C上略优。OmniSync的核心优势在于无掩码能力带来的通用性
- vs MuseTalk:MuseTalk在AIGC视频上成功率92.20%已较高(选择姿态匹配的参考图),但风格化角色仅67.78%,而OmniSync达87.78%。说明掩码方法在非标准人脸上仍有根本性局限
- vs Portrait Animation方法(EMO/Hallo/Sonic):这些是image→video方法,不保证与原始视频的一致性。OmniSync作为video→video方法,能继承源视频的纹理、动态和说话风格
启发与关联¶
- 时间步依赖数据采样策略有很强的通用性,可应用于其他需要"精确局部编辑"的扩散任务,如视频风格迁移中保持结构、图像编辑中保持背景等
- DS-CFG的时空自适应guidance思想可以迁移到其他弱条件生成任务(如文本驱动的精细区域编辑)
- AIGC-LipSync Benchmark的建立表明,随着T2V模型普及,后处理工具(唇形同步、超分辨率等)需要专门针对AI生成内容做评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 无掩码训练+时间步依赖采样+DS-CFG三个创新各有独到之处,但每个单独看都是对已有技术的巧妙组合
- 实验充分度: ⭐⭐⭐⭐⭐ HDTF+自建AIGC Benchmark双评估,7个baseline,完整消融,39人user study,Cronbach's α=0.98
- 写作质量: ⭐⭐⭐⭐ 结构清晰、公式规范、动机阐述清楚,附录详细解释了设计选择的原因
- 价值: ⭐⭐⭐⭐ NeurIPS Spotlight,首次将唇形同步推广到AI生成视频场景,建立了新benchmark,对产业界有实际价值