OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2505.21448
代码: https://ziqiaopeng.github.io/OmniSync/ (项目页面)
领域: 视频理解 / 唇形同步 / 扩散模型
关键词: 唇形同步, Diffusion Transformer, Flow Matching, Classifier-Free Guidance, AIGC视频

一句话总结¶

OmniSync提出了一种基于Diffusion Transformer的通用唇形同步框架，通过无掩码训练范式、基于Flow Matching的渐进噪声初始化和动态时空CFG三大创新，在真实视频和AI生成视频上都大幅超越先前方法，尤其在风格化角色的唇形同步上达到87.78%成功率（之前最佳67.78%）。

背景与动机¶

唇形同步（Lip Synchronization）的目标是让视频中说话者的嘴唇运动与目标音频对齐，广泛应用于电影配音、数字人、远程会议等场景。随着AI视频生成（T2V模型如Kling、Wan、Hunyuan等）的兴起，唇形同步从一项专业技术发展为视频生成生态的基础能力。

现有方法主要存在三大痛点： 1. 依赖参考帧+掩码修补：传统方法从参考帧提取外观、用掩码遮住目标帧嘴巴区域再生成。这导致边界伪影、身份漂移，且头部姿态不一致时效果急剧下降 2. 唇形泄漏问题：音频信号比视觉信号弱得多，模型容易"偷看"原始视频的唇形而非完全替换为目标音频驱动的嘴型 3. 无法处理风格化内容：依赖人脸检测和对齐的方法在非真人角色（卡通、动画、非人类实体）上直接失效，而这恰恰是T2V模型擅长生成的内容

此外，学术界完全缺少针对AI生成视频中唇形同步的评估基准。

核心问题¶

如何构建一个通用的唇形同步框架，既能处理真实人脸视频，又能在AI生成的风格化角色视频上工作？核心挑战在于：(1) 不依赖人脸检测/对齐等传统预处理，(2) 克服音频作为弱条件信号的固有困难，(3) 在修改嘴唇的同时严格保持身份、姿态和背景不变。

方法详解¶

整体框架¶

OmniSync的pipeline很直观：给定一段源视频 \(V_{cd}\) 和目标音频 \(A_{ab}\)，模型直接输出唇形与目标音频同步的视频 \(V_{ab}\)，不需要任何掩码或参考帧。整个系统基于Diffusion Transformer (DiT)，使用Flow Matching作为训练目标。音频特征使用预训练Whisper编码器提取，文本条件使用T5编码器（训练时用描述性文本标签如"A person speaking loudly with clear facial and tooth movements"来增强唇形清晰度）。

核心创新包含三个模块，分别解决训练范式、推理稳定性和弱音频条件信号三个问题。

关键设计¶

无掩码训练范式 (Mask-Free Training Paradigm)：抛弃传统的"遮住嘴巴→根据音频补全"的模式，转而让DiT直接学习跨帧编辑映射 \((V_{cd}, A_{ab}) \mapsto V_{ab}\)。关键难点是：直接帧编辑需要完美配对的训练数据（姿态/身份完全一致，只有嘴唇不同），这在实际中几乎不存在。作者巧妙地利用了扩散模型的渐进去噪特性，提出时间步依赖的数据采样策略：
高噪声时间步（\(t > 850\)，负责生成面部基础结构）：使用MEAD数据集的伪配对数据（实验室固定机位拍摄，同一人不同话语形成自然的姿态一致配对），让模型学会在保持姿态/身份的条件下构建面部结构
中低噪声时间步（\(t \leq 850\)，负责唇形生成和细节精修）：切换到多样性更强的YouTube非配对数据，学习泛化性更强的"音频→唇形"映射

训练损失为标准的Conditional Flow Matching (CFM) loss：\(\mathcal{L}_{CFM}(\theta) = \mathbb{E}[\|v_\theta(x_t, V_{cd}, A_{ab}, t) - u_t(x_t|V_{ab})\|^2_2]\)

基于Flow Matching的渐进噪声初始化 (Progressive Noise Initialization)：推理时不从纯随机噪声开始去噪（这会在早期过程中因误差累积导致姿态偏移和身份漂移），而是将原始视频帧加入受控噪声：\(x_{init} = (1-\tau)V_{source} + \tau\epsilon\)（\(\tau=0.92\)），然后只执行后续50步去噪。相当于跳过了扩散过程的早期阶段（负责宏观结构），直接继承源视频的姿态和全局结构，让模型专注于嘴巴区域的编辑。这既保证了空间一致性，又降低了计算量。
动态时空Classifier-Free Guidance (DS-CFG)：解决音频条件过弱的问题。标准CFG面临两难：scale高→唇形准但有伪影，scale低→视觉好但唇形不准。DS-CFG在两个维度做自适应：
空间维度：以嘴巴为中心构建高斯权重矩阵 \(\mathbf{G}_{spatial}(x,y)\)，嘴巴处guidance最强（\(\omega_{peak}\)），远离嘴巴处最弱（\(\omega_{base}\)），确保只在需要改变的区域施加强音频引导
时间维度：guidance强度随去噪进程衰减 \(\omega(t) = \omega_{peak} \cdot (t/T)^\gamma\)（\(\gamma=1.5\)），早期强引导建立正确唇形，后期弱引导保护纹理细节
最终公式：\(\hat{\epsilon}_\theta = \epsilon_\theta(x_t, \varnothing, t) + \mathbf{G}_{spatial} \cdot \omega(t) \cdot [\epsilon_\theta(x_t, c, t) - \epsilon_\theta(x_t, \varnothing, t)]\)

损失函数 / 训练策略¶

训练目标：Conditional Flow Matching loss（学习速度场的L2损失）
训练规模：64×A100 GPU，batch size 64，80k步，80小时完成
优化器：AdamW, lr=1e-5
时间步阈值：\(t_{threshold} = 850\)
推理时噪声参数：\(\tau = 0.92\)，50步去噪
文本条件：训练时用描述性prompt标注视频，推理时可通过prompt engineering控制唇形清晰度和运动幅度

实验关键数据¶

HDTF数据集（真实视频）¶

方法	FID↓	FVD↓	CSIM↑	NIQE↓	BRISQUE↓	HyperIQA↑	LMD↓	LSE-C↑
Wav2Lip	14.91	543.3	0.852	6.50	53.37	45.82	10.01	7.63
IP-LAP	9.51	325.7	0.809	6.53	54.40	50.09	7.70	7.26
MuseTalk	8.76	231.4	0.862	5.82	46.00	55.40	8.70	6.89
LatentSync	8.52	216.9	0.859	6.27	50.86	53.21	17.34	8.05
OmniSync	7.86	199.6	0.875	5.48	37.92	56.36	7.10	7.31

AIGC-LipSync Benchmark（AI生成视频）¶

方法	FID↓	FVD↓	CSIM↑	生成成功率↑	风格化角色成功率↑
Wav2Lip	22.99	562.2	0.727	71.38%	26.67%
MuseTalk	17.67	297.6	0.667	92.20%	67.78%
LatentSync	15.37	263.1	0.751	74.96%	35.56%
OmniSync	10.68	211.4	0.808	97.40%	87.78%

用户评估（5分制，39人参与）：OmniSync在唇形同步准确性(3.92)、身份保持(4.13)、时间稳定性(4.04)、图像质量(4.05)、视频真实感(3.87)五项指标上全面领先。

消融实验要点¶

变体	FID↓	FVD↓	CSIM↑	LSE-C↑
完整模型	15.71	287.2	0.814	7.06
去掉时间步依赖采样	21.55	549.8	0.727	7.00
去掉渐进噪声初始化	16.73	361.3	0.805	7.03
低静态CFG	-	-	-	4.16
高静态CFG	22.73	348.3	0.782	7.10

时间步依赖采样贡献最大：去掉后CSIM降10.7%，FVD从287→550，面部出现明显错位
渐进噪声初始化：去掉后FVD从287→361，时间一致性明显下降
DS-CFG的平衡作用：低CFG唇形不准(LSE-C仅4.16)，高CFG有伪影(FID=22.73)，DS-CFG兼顾两者(LSE-C=7.06, FID=15.71)

亮点¶

时间步依赖采样是核心创意：利用扩散模型不同时间步学习不同内容的特性（早期→结构，中期→语义，晚期→细节），在不同阶段使用不同性质的训练数据。这个思路可以迁移到任何需要"局部编辑"的扩散模型任务
真正的无掩码设计：彻底抛弃人脸检测/对齐/掩码，使得方法可以处理卡通、非人类等风格化角色。AIGC-LipSync上87.78%的风格化角色成功率实质性证明了这一点
DS-CFG的设计很精巧：在空间上用高斯加权、在时间上用幂次衰减，把CFG从全局一个数变成了时空自适应的控制场。这个思路对其他条件生成任务（如音频驱动的表情/动作生成）也有参考价值
AIGC-LipSync Benchmark：首个针对AI生成视频唇形同步的评估基准（615个视频，含真人/风格化/非人类角色），填补了领域空白
工程扎实：64×A100训练80小时，支持无限时长推理，user study有39人评估、Cronbach's α=0.98

局限性 / 可改进方向¶

LSE-C指标未最优：在HDTF上LatentSync的LSE-C(8.05)略高于OmniSync(7.31)，因为LatentSync使用了SyncNet-based loss约束。未来可以考虑结合SyncNet损失进一步提升唇形精度
训练和推理成本较高：64×A100训练、推理需50步去噪，实时性和可及性受限
嘴巴中心定位问题：DS-CFG的空间高斯需要嘴巴中心坐标 \((x_m, y_m)\)，对于极端风格化角色如何确定这个中心未详细讨论
AIGC-LipSync Benchmark规模有限：615个视频，且视频来源集中在几个T2V模型，泛化性有待扩展
缺少与Portrait Animation方法的定量对比：附录中与EchoMimic、Hallo3、Sonic只做了定性比较

与相关工作的对比¶

vs Wav2Lip：Wav2Lip开创了SyncNet监督的范式但视觉质量差、依赖人脸检测。OmniSync在FID上从14.91→7.86，在AIGC视频成功率上从71%→97%，全面超越
vs LatentSync：同为扩散模型方法，但LatentSync仍依赖参考帧+掩码修补。OmniSync在视觉质量(FID/FVD/CSIM)全面领先，但LatentSync因SyncNet loss在LSE-C上略优。OmniSync的核心优势在于无掩码能力带来的通用性
vs MuseTalk：MuseTalk在AIGC视频上成功率92.20%已较高（选择姿态匹配的参考图），但风格化角色仅67.78%，而OmniSync达87.78%。说明掩码方法在非标准人脸上仍有根本性局限
vs Portrait Animation方法（EMO/Hallo/Sonic）：这些是image→video方法，不保证与原始视频的一致性。OmniSync作为video→video方法，能继承源视频的纹理、动态和说话风格

启发与关联¶

时间步依赖数据采样策略有很强的通用性，可应用于其他需要"精确局部编辑"的扩散任务，如视频风格迁移中保持结构、图像编辑中保持背景等
DS-CFG的时空自适应guidance思想可以迁移到其他弱条件生成任务（如文本驱动的精细区域编辑）
AIGC-LipSync Benchmark的建立表明，随着T2V模型普及，后处理工具（唇形同步、超分辨率等）需要专门针对AI生成内容做评估

评分¶

新颖性: ⭐⭐⭐⭐ 无掩码训练+时间步依赖采样+DS-CFG三个创新各有独到之处，但每个单独看都是对已有技术的巧妙组合
实验充分度: ⭐⭐⭐⭐⭐ HDTF+自建AIGC Benchmark双评估，7个baseline，完整消融，39人user study，Cronbach's α=0.98
写作质量: ⭐⭐⭐⭐ 结构清晰、公式规范、动机阐述清楚，附录详细解释了设计选择的原因
价值: ⭐⭐⭐⭐ NeurIPS Spotlight，首次将唇形同步推广到AI生成视频场景，建立了新benchmark，对产业界有实际价值