跳转至

LibraGen: Playing a Balance Game in Subject-Driven Video Generation

日期: 2026-03-13
arXiv: 2603.13506
代码: Project Page
领域: 视频生成 / 主体驱动
关键词: subject-driven video generation, DPO, model merging, data curation, classifier-free guidance

一句话总结

提出 LibraGen,将 S2V(主体驱动视频生成)建模为"平衡博弈"——用万级高质量数据 + in-pair/cross-pair LoRA 合并 + Consis-DPO/Real-Fake DPO 双管线合并 + 动态 CFG,在运动质量、视觉美学、文本对齐、主体一致性上全面超越开源和商业 S2V 模型。

研究背景与动机

  1. 领域现状: 视频生成基础模型(Wan、HunyuanVideo、CogVideoX 等)已在 T2V/I2V 上表现优异。商业产品(Vidu、Kling、Sora2)开始支持 S2V——给定参考图像和文本提示,生成主体一致的视频。

  2. 现有痛点: S2V 本质上是增量学习——要在保留基础模型运动质量、视觉美学、提示对齐的同时获得主体一致性。现有方法的训练数据分两类:

    • in-pair 数据(参考图像来自目标视频内部):导致严重的复制粘贴伪影,视觉美学和运动动态退化
    • cross-pair 数据(参考图像来自不同视频):消除了复制粘贴问题,但主体一致性大幅下降
  3. 核心矛盾: 增强某一方面能力必然牺牲另一方面——in-pair 数据提升一致性但损害运动/美学,cross-pair 数据保留运动/美学但牺牲一致性。

  4. 切入角度: 将 S2V 视为需要精心调和的平衡博弈,提出"抬高支点(数据质量)、调节平衡(训练策略)"的范式。

  5. 核心 idea: 质量优先的万级数据 + 多阶段 LoRA 合并(SFT 阶段合并 in/cross-pair,DPO 阶段合并一致性/真假偏好),在每个维度上独立优化后通过模型合并找到最优平衡点。

方法详解

整体框架

基于 MM-DiT(Multi-Modal Diffusion Transformer),输入参考图像和文本提示,输出主体一致的视频。训练分为:数据策划 → SFT(in-pair + cross-pair LoRA 合并)→ DPO(Consis-DPO + Real-Fake DPO LoRA 合并)→ 推理时动态 CFG。

关键设计

  1. 轻量主体注入:

    • 参考图像和视频帧共用同一 VAE 编码,沿时间维度拼接:\(\mathbf{z}_t^{\mathrm{input}} = \text{Concat}([\mathbf{z}_t^{\mathrm{noised}}, \mathbf{z}^{\mathrm{cond}}, \mathbf{f}])\)
    • 不需要额外视觉编码器或主体分割预处理,用二进制 flag 标记参考帧
    • 设计动机:最小化对基础模型的修改,保留原生能力
  2. 质量优先数据策划(万级数据):

    • 从百万级原始视频蒸馏到约 9000 个三元组(5500 cross-pair + 3500 in-pair)
    • 四阶段流水线:视频收集(运动+美学打分取 top 5%→人工复核)→ 参考主体提取(大规模检索库匹配)→ 数据标注(VLM 生成精细描述+主体绑定)→ 层级标签系统(五级分类,动态调节分布)
    • 人工参与每个阶段——确保人类对齐
  3. Tune-to-Balance SFT:

    • 分别用 in-pair 和 cross-pair 数据训练两个 LoRA
    • 线性插值合并权重:\(l_{\text{in-pair}} = 0.15\)(较小权重避免复制粘贴,但引入主体一致性先验)
    • in-pair 训练时增大参考图像 drop ratio(缓解复制粘贴),cross-pair 训练时增大文本 drop ratio(增强主体一致性)
  4. 双 DPO 管线:

    • Consis-DPO: 通过操纵 RoPE 偏移量生成正负样本对(正样本=cross-pair SFT 模型的正常输出,负样本=增大 RoPE 偏移后的输出→主体一致性差),合并系数 \(l_{\text{Consis-DPO}} = 0.5\)
    • Real-Fake DPO: 正样本=真实训练视频(天然高运动+高视觉质量),负样本=in-pair SFT 模型生成(主体一致但有复制粘贴伪影),合并系数 \(l_{\text{Real-fake}} = 0.1\)
    • 两个 DPO LoRA 最终合并→同时提升一致性和视觉质量
  5. 动态 CFG 推理:

    • 早期去噪步主要捕获文本引导的结构/运动→\(\omega_2\)(文本引导)从 5 线性降到 1
    • 后期去噪步主要融入参考图像的纹理/颜色→\(\omega_1\)(参考引导)从 1 线性升到 4
    • 无需重训练,灵活控制提示对齐 vs 参考保真度

训练策略

  • 基于 LoRA 微调,不做全参数微调——最大限度保留基础模型能力
  • 低分辨率(480P)SFT → 超分辨率(720P)SFT → DPO
  • DPO 目标中使用 EMA 更新参考策略

实验关键数据

主实验

方法 Motion Smooth. ↑ Motion Quality ↑ AES ↑ Text Align. ↑
LibraGen 0.5380 0.9930 0.6496 3.594
Vidu Q1 0.5373 0.9924 0.6491 3.315
Kling O1 0.4965 0.9865 0.6479 3.567
Phantom 0.3844 0.9873 0.6410 1.998

主体一致性(GSB Ratio,越高越好)

Baseline 1-ref 2-ref 3-ref 4-ref
vs MAGREF 0.423 0.620 0.429 0.700
vs Phantom 0.308 0.300 0.286 0.500
vs Kling O1 0.077 0.080 0.071 0.100

消融实验

配置 MQ ↑ AES ↑ VQ ↑ TA ↑ GSB ratio
baseline (cross-pair only) 0.5350 0.6420 2.794 3.504 -
+ in-pair merge (0.15) 0.5218 0.6306 2.708 3.466 +0.190
+ Consis-DPO (0.5) 0.5239 0.6334 2.714 3.490 +0.286
+ Real-Fake DPO (0.1) 0.5342 0.6394 2.756 3.524 +0.025
+ dynamic CFG 0.5380 0.6496 2.795 3.594 +0.020

关键发现

  • 仅用万级数据就超越百万级数据训练的方法——质量>>数量
  • LoRA 合并策略在每一步都在不同维度间做精确 trade-off
  • Consis-DPO 提升一致性但略降运动质量,Real-Fake DPO 恢复运动/视觉质量,两者互补
  • 动态 CFG 几乎免费提升文本对齐而不损害其他指标

亮点与洞察

  • LoRA 合并作为连续平衡旋钮非常巧妙:in-pair/cross-pair SFT、Consis/Real-Fake DPO 四个 LoRA 通过不同合并系数组合出最优工作点,避免了多目标联合训练的困难
  • 操纵 RoPE 偏移量来构造 DPO 负样本是极低成本的偏好数据生成方式——不需要额外模型,只改一个超参数就能产生主体一致性差的负样本
  • 质量>数量的数据哲学在强基础模型时代越来越重要——基础模型已具备视频生成的一般能力,S2V 学习只需少量精准的偏好信号

局限性 / 可改进方向

  • 依赖特定的 MM-DiT 基础模型(Seedance),泛化到其他架构的效果未验证
  • in-pair merge 系数 0.15、Consis-DPO 系数 0.5 等超参数是经验值,跨数据集的鲁棒性存疑
  • 动态 CFG 增加推理开销(多两次速度场计算)
  • 主体一致性评估依赖人工 GSB 评分,缺乏自动化定量指标

评分

  • 新颖性: ⭐⭐⭐⭐ 平衡博弈视角+多阶段 LoRA 合并范式新颖,但各组件(DPO、LoRA merge、动态 CFG)单独看并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融非常详尽,每一步都有定量验证,覆盖商业+开源基线
  • 写作质量: ⭐⭐⭐⭐ 叙事线清晰,图表直观
  • 价值: ⭐⭐⭐⭐ 万级数据超商业模型的结果对资源有限的团队很有指导意义