LibraGen: Playing a Balance Game in Subject-Driven Video Generation¶

日期: 2026-03-13
arXiv: 2603.13506
代码: Project Page
领域: 视频生成 / 主体驱动
关键词: subject-driven video generation, DPO, model merging, data curation, classifier-free guidance

一句话总结¶

提出 LibraGen，将 S2V（主体驱动视频生成）建模为"平衡博弈"——用万级高质量数据 + in-pair/cross-pair LoRA 合并 + Consis-DPO/Real-Fake DPO 双管线合并 + 动态 CFG，在运动质量、视觉美学、文本对齐、主体一致性上全面超越开源和商业 S2V 模型。

研究背景与动机¶

领域现状: 视频生成基础模型（Wan、HunyuanVideo、CogVideoX 等）已在 T2V/I2V 上表现优异。商业产品（Vidu、Kling、Sora2）开始支持 S2V——给定参考图像和文本提示，生成主体一致的视频。
现有痛点: S2V 本质上是增量学习——要在保留基础模型运动质量、视觉美学、提示对齐的同时获得主体一致性。现有方法的训练数据分两类：
- in-pair 数据（参考图像来自目标视频内部）：导致严重的复制粘贴伪影，视觉美学和运动动态退化
- cross-pair 数据（参考图像来自不同视频）：消除了复制粘贴问题，但主体一致性大幅下降
核心矛盾: 增强某一方面能力必然牺牲另一方面——in-pair 数据提升一致性但损害运动/美学，cross-pair 数据保留运动/美学但牺牲一致性。
切入角度: 将 S2V 视为需要精心调和的平衡博弈，提出"抬高支点（数据质量）、调节平衡（训练策略）"的范式。
核心 idea: 质量优先的万级数据 + 多阶段 LoRA 合并（SFT 阶段合并 in/cross-pair，DPO 阶段合并一致性/真假偏好），在每个维度上独立优化后通过模型合并找到最优平衡点。

方法详解¶

整体框架¶

基于 MM-DiT（Multi-Modal Diffusion Transformer），输入参考图像和文本提示，输出主体一致的视频。训练分为：数据策划 → SFT（in-pair + cross-pair LoRA 合并）→ DPO（Consis-DPO + Real-Fake DPO LoRA 合并）→ 推理时动态 CFG。

关键设计¶

轻量主体注入:
- 参考图像和视频帧共用同一 VAE 编码，沿时间维度拼接：\(\mathbf{z}_t^{\mathrm{input}} = \text{Concat}([\mathbf{z}_t^{\mathrm{noised}}, \mathbf{z}^{\mathrm{cond}}, \mathbf{f}])\)
- 不需要额外视觉编码器或主体分割预处理，用二进制 flag 标记参考帧
- 设计动机：最小化对基础模型的修改，保留原生能力
质量优先数据策划（万级数据）:
- 从百万级原始视频蒸馏到约 9000 个三元组（5500 cross-pair + 3500 in-pair）
- 四阶段流水线：视频收集（运动+美学打分取 top 5%→人工复核）→ 参考主体提取（大规模检索库匹配）→ 数据标注（VLM 生成精细描述+主体绑定）→ 层级标签系统（五级分类，动态调节分布）
- 人工参与每个阶段——确保人类对齐
Tune-to-Balance SFT:
- 分别用 in-pair 和 cross-pair 数据训练两个 LoRA
- 线性插值合并权重：\(l_{\text{in-pair}} = 0.15\)（较小权重避免复制粘贴，但引入主体一致性先验）
- in-pair 训练时增大参考图像 drop ratio（缓解复制粘贴），cross-pair 训练时增大文本 drop ratio（增强主体一致性）
双 DPO 管线:
- Consis-DPO: 通过操纵 RoPE 偏移量生成正负样本对（正样本=cross-pair SFT 模型的正常输出，负样本=增大 RoPE 偏移后的输出→主体一致性差），合并系数 \(l_{\text{Consis-DPO}} = 0.5\)
- Real-Fake DPO: 正样本=真实训练视频（天然高运动+高视觉质量），负样本=in-pair SFT 模型生成（主体一致但有复制粘贴伪影），合并系数 \(l_{\text{Real-fake}} = 0.1\)
- 两个 DPO LoRA 最终合并→同时提升一致性和视觉质量
动态 CFG 推理:
- 早期去噪步主要捕获文本引导的结构/运动→\(\omega_2\)（文本引导）从 5 线性降到 1
- 后期去噪步主要融入参考图像的纹理/颜色→\(\omega_1\)（参考引导）从 1 线性升到 4
- 无需重训练，灵活控制提示对齐 vs 参考保真度

训练策略¶

基于 LoRA 微调，不做全参数微调——最大限度保留基础模型能力
低分辨率（480P）SFT → 超分辨率（720P）SFT → DPO
DPO 目标中使用 EMA 更新参考策略

实验关键数据¶

主实验¶

方法	Motion Smooth. ↑	Motion Quality ↑	AES ↑	Text Align. ↑
LibraGen	0.5380	0.9930	0.6496	3.594
Vidu Q1	0.5373	0.9924	0.6491	3.315
Kling O1	0.4965	0.9865	0.6479	3.567
Phantom	0.3844	0.9873	0.6410	1.998

主体一致性（GSB Ratio，越高越好）¶

Baseline	1-ref	2-ref	3-ref	4-ref
vs MAGREF	0.423	0.620	0.429	0.700
vs Phantom	0.308	0.300	0.286	0.500
vs Kling O1	0.077	0.080	0.071	0.100

消融实验¶

配置	MQ ↑	AES ↑	VQ ↑	TA ↑	GSB ratio
baseline (cross-pair only)	0.5350	0.6420	2.794	3.504	-
+ in-pair merge (0.15)	0.5218	0.6306	2.708	3.466	+0.190
+ Consis-DPO (0.5)	0.5239	0.6334	2.714	3.490	+0.286
+ Real-Fake DPO (0.1)	0.5342	0.6394	2.756	3.524	+0.025
+ dynamic CFG	0.5380	0.6496	2.795	3.594	+0.020

关键发现¶

仅用万级数据就超越百万级数据训练的方法——质量>>数量
LoRA 合并策略在每一步都在不同维度间做精确 trade-off
Consis-DPO 提升一致性但略降运动质量，Real-Fake DPO 恢复运动/视觉质量，两者互补
动态 CFG 几乎免费提升文本对齐而不损害其他指标

亮点与洞察¶

LoRA 合并作为连续平衡旋钮非常巧妙：in-pair/cross-pair SFT、Consis/Real-Fake DPO 四个 LoRA 通过不同合并系数组合出最优工作点，避免了多目标联合训练的困难
操纵 RoPE 偏移量来构造 DPO 负样本是极低成本的偏好数据生成方式——不需要额外模型，只改一个超参数就能产生主体一致性差的负样本
质量>数量的数据哲学在强基础模型时代越来越重要——基础模型已具备视频生成的一般能力，S2V 学习只需少量精准的偏好信号

局限性 / 可改进方向¶

依赖特定的 MM-DiT 基础模型（Seedance），泛化到其他架构的效果未验证
in-pair merge 系数 0.15、Consis-DPO 系数 0.5 等超参数是经验值，跨数据集的鲁棒性存疑
动态 CFG 增加推理开销（多两次速度场计算）
主体一致性评估依赖人工 GSB 评分，缺乏自动化定量指标

评分¶

新颖性: ⭐⭐⭐⭐ 平衡博弈视角+多阶段 LoRA 合并范式新颖，但各组件（DPO、LoRA merge、动态 CFG）单独看并非全新
实验充分度: ⭐⭐⭐⭐⭐ 消融非常详尽，每一步都有定量验证，覆盖商业+开源基线
写作质量: ⭐⭐⭐⭐ 叙事线清晰，图表直观
价值: ⭐⭐⭐⭐ 万级数据超商业模型的结果对资源有限的团队很有指导意义