JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation¶

会议: ICLR 2026
arXiv: 2602.19163
代码: GitHub
领域: 多模态生成 / 音视频联合生成
关键词: Joint Audio-Video Generation, DiT, Mixture-of-Experts, RoPE, DPO

一句话总结¶

提出 JavisDiT++，一个面向联合音视频生成（JAVG）的简洁统一框架，通过模态特定 MoE 提升生成质量、时间对齐 RoPE 实现帧级同步、音视频 DPO 对齐人类偏好，基于 Wan2.1-1.3B 仅用约 1M 公开数据即达到 SOTA。

研究背景与动机¶

联合音视频生成（JAVG）要求模型从文本描述同时生成时间同步、语义对齐的视频和音频。当前开源方法与商业模型（如 Veo3）相比存在三方面差距：

生成质量：现有方法要么用统一 FFN 处理两模态（UniForm），导致模态信息损失；要么用双流 DiT（JavisDiT、UniVerse-1），架构复杂且扩展性差。

时间同步：JavisDiT 用 ST-Prior、UniVerse-1 用 Stitching 策略，均为隐式同步，不够精确且增加推理开销。

人类偏好对齐：现有 JAVG 方法未引入偏好优化，在美学和和谐度上与人类期望存在差距。JavisDiT++ 是首个将偏好对齐引入 JAVG 的工作。

方法详解¶

整体框架¶

基于 Wan2.1-1.3B-T2V 作为视频 backbone，采用三阶段训练：音频预训练 → 音视频 SFT → 音视频 DPO。使用 Rectified Flow 作为噪声调度器，视频 VAE 来自 Wan2.1，音频 VAE 来自 AudioLDM2，均冻结。

关键设计¶

模态特定 MoE（MS-MoE）：音频和视频 token 通过共享的多头自注意力层进行跨模态交互，然后分别经过各自的 FFN 层进行模态内信息聚合。设计思路类似 BAGEL，但按模态而非任务分配 token。虽然总参数从 1.3B 增至 2.1B，但每个 token 激活的参数仍为 1.3B，因此推理开销不增加。相比以下两种替代方案更优：
- Shared-DiT + LoRA：音频质量受限于可训练容量不足
- Shared-DiT + Full-FT：音频预训练阶段过多参数偏移，严重损害视频质量
时间对齐 RoPE（TA-RoPE）：在 3D 位置 ID 的第一维（时间维）上对音频和视频 token 强制绝对时间对齐。视频 token 的位置 ID 为 \((t, h, w)\)，音频 token 的位置 ID 设为：

\[R_a(t, m) = \left(\left[t \cdot \frac{T_v}{T_a}\right], t + H, m + W\right)\]

其中 \([\cdot]\) 为取整操作，\(H\)、\(W\) 的偏移保证音视频位置 ID 不重叠。这种设计无需物理重排 token 序列，通过位置 ID 操作即可在全注意力框架中实现时间对齐，零额外推理成本。

音视频 DPO（AV-DPO）：首创将偏好对齐引入 JAVG。核心贡献：
- 奖励模型：从三个维度评估——音频质量（AudioBox + ImageBind）、视频质量（VideoAlign + ImageBind）、音视频对齐（ImageBind + Syncformer）
- 偏好数据构建：30K 提示 × 3 对生成 + ground truth，按模态分别归一化排序后选取 winner-loser 对，确保 winner 在所有模态维度上都优于 loser（约得到 25K 对）
- 模态感知损失：分别计算音频和视频的 DPO 损失并加权：

\[\mathcal{L}_{\mathrm{DPO}}^{av} = -\mathbb{E}\left[\log\sigma\left(-\beta_v(\mathrm{Diff}_{\mathrm{policy}}^v - \mathrm{Diff}_{\mathrm{ref}}^v) - \beta_a(\mathrm{Diff}_{\mathrm{policy}}^a - \mathrm{Diff}_{\mathrm{ref}}^a)\right)\right]\]

损失函数 / 训练策略¶

音频预训练：780K 音频-文本对
音视频 SFT：330K 音视频-文本三元组，使用 Flow Matching 目标
音视频 DPO：25K 偏好对，搭配 Flow Matching 正则化防过拟合
支持 2-5 秒、240p-480p 不同纵横比

实验关键数据¶

主实验（JavisBench, 240p4s）¶

模型	参数量	FVD↓	FAD↓	AV-IB↑	JavisScore↑	DeSync↓	推理时间
JavisDiT	3.1B	204.1	7.2	0.197	0.154	1.039	30s
UniVerse-1	6.4B	194.2	8.7	0.104	0.077	0.929	13s
JavisDiT++	2.1B	141.5	5.5	0.198	0.159	0.832	10s

消融实验（JavisBench-mini）¶

配置	FVD↓	FAD↓	JavisScore↑	DeSync↓	说明
Shared-DiT + LoRA	227.6	6.51	0.098	0.934	LoRA 容量不足
Shared-DiT + Full-FT	269.3	5.66	0.137	0.945	视频质量下降
MS-MoE	221.3	5.51	0.153	0.807	最佳架构
无同步机制	-	-	0.142	0.942	基线
ST-Prior	-	-	0.145	0.863	+6s 延迟
TA-RoPE	-	-	0.153	0.807	零额外成本
无 DPO	221.3	5.51	0.153	0.807	SFT 基线
Modality-Micro DPO	198.5	5.32	0.156	0.776	最佳 DPO 策略

关键发现¶

MS-MoE 在保持视频质量的同时大幅提升音频质量，证明模态特定 FFN 的必要性
TA-RoPE 以零推理成本实现的同步效果优于需要额外计算的 ST-Prior 和 FrameAttn
AV-DPO 在客观指标上改进温和，但人类评价中 25% 以上偏好提升，捕捉到了指标难以衡量的美学偏好
模态感知的偏好对构建至关重要——模态不一致的 winner 选择会导致 DPO 退化

亮点与洞察¶

用更少参数（2.1B vs 6.4B）和更少数据（1M vs 大规模）超越了双流架构，说明统一简洁架构 + 精心设计的模块比暴力堆叠更有效
TA-RoPE 的位置 ID 操纵思路优雅——利用全注意力框架的对称性，无需物理重排序列即可实现时间对齐
首次将 DPO 引入多模态联合生成，且设计了模态感知的偏好数据构建流程
推理仅比纯视频生成多 1.6% 开销，实用性极强

局限与展望¶

当前视频分辨率和时长受限（240-480p, 2-5s），离实际商用还有距离
AV-DPO 的客观指标提升有限，奖励模型的评估能力可能是瓶颈
音频 VAE（AudioLDM2）不是为联合生成设计的，可能限制了音频多样性
仅在 Wan2.1-1.3B 上验证，更大或不同系列模型的扩展性未知
与 Veo3 等商业模型仍有差距，特别是在复杂场景的语义对齐上

评分¶

新颖性: ⭐⭐⭐⭐ TA-RoPE 和 AV-DPO 有新意，MS-MoE 相对常规
实验充分度: ⭐⭐⭐⭐⭐ 全面的架构对比、同步机制对比、DPO 策略对比、主观评估，ablation 非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，但部分描述略冗长
价值: ⭐⭐⭐⭐ 为开源 JAVG 设立新 SOTA 和新标杆，AV-DPO 思路对社区有启发