Versatile Transition Generation with Image-to-Video Diffusion¶

会议: ICCV 2025
arXiv: 2508.01698
代码: 项目主页
领域: image_generation
关键词: 视频过渡生成, 图像变形, 双向运动预测, LoRA插值, 表征对齐正则化

一句话总结¶

本文提出VTG统一过渡视频生成框架，基于图像到视频扩散模型，通过插值初始化（噪声SLERP+LoRA插值+文本SLERP）、双向运动微调和DINOv2表征对齐正则化，在物体变形、运动预测、概念融合、场景过渡四类任务上实现平滑高保真过渡。

研究背景与动机¶

领域现状: 过渡视频生成包括物体变形（DiffMorpher）、视频帧插值（RIFE等）和场景过渡（SEINE），但各方法针对特定任务，缺乏统一框架。
现有痛点: (1)图像变形方法（DiffMorpher等）生成不连续的静态图像而非时序连贯帧；(2)视频帧插值在内容差异大时产生非自然过渡；(3)现有框架要么只做形态变形+运动预测，要么只做场景过渡，没有统一方案。
核心矛盾: 高质量过渡需同时满足语义相似性、输入保真度、帧间平滑性和文本对齐四个标准。图像到视频扩散模型随机初始化潜变量导致帧间"闪烁"；仅支持前向运动预测导致正反输入不对称。
本文目标: 能否设计一个通用过渡生成器同时处理物体变形、概念融合、运动预测和场景过渡？
切入角度: 在I2V扩散模型基础上引入三个互补设计：插值初始化（处理大内容差异）、双向运动（消除方向不对称）、表征对齐（增强保真度）。
核心 idea: 通过球面插值噪声+LoRA融合+文本SLERP统一四类过渡任务，双向运动微调消除方向偏差。

方法详解¶

整体框架¶

基于DynamiCrafter预训练的I2V扩散模型。给定首帧\(x^1\)和末帧\(x^N\)及对应文本，VTG分推理和训练两部分：推理时通过DDIM反转获取两端点latent噪声并SLERP插值；训练时仅微调时序注意力层的value/output矩阵和MLP投影器（150个高质量视频）。

关键设计¶

插值初始化（Interpolation-based Initialization）:
- 功能: 缓解随机噪声导致的突变，保持物体身份，处理大内容差异
- 核心思路: 三重插值——(1)噪声SLERP: 对两端点DDIM反转得到\(z_{t1}\)和\(z_{tN}\)，使用球面线性插值\(z_{tn} = \frac{\sin((1-\lambda)\phi)}{\sin\phi}z_{t1} + \frac{\sin(\lambda\phi)}{\sin\phi}z_{tN}\)关联中间帧噪声，仅在早期去噪步注入。(2)LoRA插值: 对两端点分别训练LoRA \(\Delta\theta_1, \Delta\theta_N\)（仅200步），线性插值\(\Delta\theta = (1-\lambda_{LoRA})\Delta\theta_1 + \lambda_{LoRA}\Delta\theta_N\)融合语义。(3)帧感知文本SLERP: 对两端文本嵌入\(c_1, c_N\)做SLERP，\(c_{\lambda} = \text{SLERP}(c_1, c_N, \lambda_{text})\)实现逐帧文本条件过渡。
- 设计动机: 线性插值在高斯latent中产生不太可能的范数，SLERP保持欧几里得范数和分布内采样。LoRA捕获图像扩散模型中缺失的高层语义。文本SLERP解决单一caption无法描述中间帧混合含义的问题。
双向运动预测（Bidirectional Motion Prediction）:
- 功能: 消除I2V扩散模型正反输入顺序导致的质量不对称
- 核心思路: 将时序自注意力图旋转180度实现注意力关系反转，同时反转噪声latent的时序维度。正向U-Net和反向U-Net分别预测前向和后向运动噪声。后向预测结果再次反转后与前向融合: \(\epsilon_t = (1-\lambda_{BMP})\epsilon_{t,i} + \lambda_{BMP}\epsilon'_{t,N-i}\)（\(\lambda_{BMP}=0.5\)）。仅微调时序注意力层的value和output矩阵。损失: \(\mathcal{L}_{BMP} = \|\text{flip}(\epsilon_t) - \epsilon_{\theta_{w,o}}(z_{t'}, c, t, A'_{i,j})\|_2^2\)。
- 设计动机: I2V模型偏向与首帧相似（条件图像泄漏），且仅预训练前向运动。双向融合确保一致的运动路径。
表征对齐正则化（Representation Alignment Regularization）:
- 功能: 增强生成过渡帧的保真度，减少模糊
- 核心思路: 将中间扩散latent分帧patchify后通过可训练MLP投影对齐DINOv2特征。逐patch计算余弦相似度: \(\mathcal{L}_{RAR} = -\sum_{n=1}^{N}\mathbb{E}[\frac{1}{P}\sum_{p=1}^{P}\text{sim}(y_*^{[p]}, y_\phi(h_t)^{[p]})]\)。推理时丢弃DINOv2编码器和MLP。
- 设计动机: 扩散latent固有地缺乏高频语义，DINOv2特征包含丰富的自监督语义信息。训练时蒸馏DINOv2特征到扩散过程中，推理零开销。

损失函数 / 训练策略¶

仅150个高质量视频轻量微调。BMP微调时序注意力V/O矩阵；RAR训练MLP投影器。AdamW优化，学习率1e-5，4张A100约20K迭代。LoRA训练每对输入仅需200步约85秒。DDIM采样50步。

实验关键数据¶

主实验¶

方法	MorphBench FID↓	MorphBench PPL↓	TC-Bench TCR↑	Smoothness↑
DiffMorpher	70.49	18.19	41.82	—
SEINE	82.03	47.72	—	—
DynamiCrafter	87.32	42.09	—	—
TVG	86.92	35.18	—	—
VTG (本文)	67.39	22.80	最优	最优

消融实验¶

配置	FID↓	PPL↓	说明
Full VTG	最优	最优	完整模型
w/o Noise SLERP	上升	上升	中间帧随机突变
w/o LoRA Interpolation	上升	—	语义融合不足
w/o Text SLERP	上升	—	无帧级文本条件
w/o BMP	上升	上升	正反方向不对称
w/o RAR	上升	—	细节模糊

关键发现¶

物体变形任务中VTG显著优于DiffMorpher（FID 67.39 vs 70.49），因为DiffMorpher缺少时序建模
概念融合中生成了合理的中间语义（如狮子色和狮子大小的卡车），而基线出现突变
双向运动权重\(\lambda_{BMP}=0.5\)即可有效消除方向偏差
RAR在高频纹理场景（自行车辐条、织物纹理）中提升最为显著

亮点与洞察¶

四类过渡任务的统一定义和统一框架：物体变形/概念融合/运动预测/场景过渡
三重插值策略（噪声+LoRA+文本）逻辑互补：噪声层面的结构+LoRA层面的语义+文本层面的条件
TransitBench基准数据集的构建：200对首末帧，首次为概念融合和场景过渡提供标准评估
推理时RAR零开销：DINOv2仅用于训练正则化

局限与展望¶

LoRA训练需要为每对输入85秒，批量生成时开销可观
仅150个训练视频，运动多样性受限
基于DynamiCrafter（UNet架构），可迁移到更新的DiT架构
TransitBench规模较小（200对），可大幅扩展

评分¶

新颖性: ⭐⭐⭐⭐ 统一四类过渡任务的框架设计+三重插值策略
实验充分度: ⭐⭐⭐⭐ 四类任务各有基准+TransitBench新基准
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法组件逻辑连贯
价值: ⭐⭐⭐⭐ 过渡生成的统一范式，对视频编辑和电影制作有实用价值