🎬 视频生成¶
📷 CVPR2025 · 84 篇论文解读
- 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion
-
提出4Real-Video,一种基于双流架构的4D视频生成框架,通过将视频token分为时间流和视角流并行处理,引入hard/soft同步层协调两流信息,约1分钟即可生成8×8的高质量时空视频网格,在视觉质量和多视角一致性上超越现有方法。
- AnimateAnything: Consistent and Controllable Animation for Video Generation
-
提出两阶段可控视频生成框架:第一阶段将不同控制信号(相机轨迹、用户拖拽标注、参考视频)统一转化为逐帧光流表示,第二阶段用统一光流引导基于DiT的视频扩散模型生成最终视频,并引入频域稳定模块抑制大运动下的闪烁问题。
- Articulated Kinematics Distillation from Video Diffusion Models
-
本文提出AKD框架,通过骨骼关节参数化将3D资产的运动自由度从全空间降维到少量关节角度,再利用视频扩散模型(CogVideoX)的SDS梯度蒸馏出文本对齐的关节运动序列,并可通过物理仿真进一步确保物理合理性。
- BF-STVSR: B-Splines and Fourier—Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution
-
提出 BF-STVSR 框架,用 B-spline Mapper 建模时间运动插值、Fourier Mapper 捕获空间高频细节,无需外部光流网络即可实现连续时空视频超分辨率的 SOTA 性能。
- BF-STVSR: B-Splines and Fourier—Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution
-
提出 BF-STVSR,结合 B 样条映射器(时间平滑插值)和傅里叶映射器(空间高频捕获)实现连续时空视频超分辨率,完全无需预训练光流网络(RAFT),在 GoPro 数据集上 PSNR 达 30.22dB,FLOPs 在所有方法中最低。
- Can Text-to-Video Generation Help Video-Language Alignment?
-
提出 SynViTA 框架探索文本到视频生成模型产生的合成视频能否改善视频-语言对齐(VLA),通过基于对齐质量的样本加权和语义一致性正则化解决合成视频的语义不一致和外观偏差问题,在时序挑战性任务上提升 4+ 个点。
- ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer
-
ConMo提出了一种零样本运动迁移框架,通过将参考视频中的复合运动解耦为独立的主体运动和背景(相机)运动,再在目标视频生成时可控地重组这些运动,实现了多主体运动迁移、语义/形状变换、主体去除、相机运动模拟等多种应用,在运动保真度和文本对齐上显著超越现有方法。
- Dynamic Camera Poses and Where to Find Them
-
提出DynPose-100K——一个包含10万个动态互联网视频及其相机位姿标注的大规模数据集,通过专用模型组合+VLM的视频过滤管线和集成最新点跟踪+动态掩码+全局BA的位姿估计管线实现。
- DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
-
提出 DynamicScaler,一个无需训练的统一框架,通过偏移移位去噪器和全局运动引导,实现任意分辨率/宽高比的全景动态场景生成,支持 360° 视场、长时长和可循环视频。
- DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
-
DynamicScaler 提出了一个无需微调的统一框架,通过偏移移位去噪器(OSD)和全局运动引导(GMG)实现任意分辨率/宽高比的全景动态场景合成,支持常规全景和 360° 视野视频生成,同时保持恒定 VRAM 消耗。
- Exploring Temporally-Aware Features for Point Tracking
-
提出 Chrono,一个为点跟踪设计的时序感知特征骨干网络,通过在 DINOv2 的 Transformer 块间插入时序适配器(2D 卷积下采样 + 1D 局部时序注意力 + 2D 卷积上采样),仅通过简单的特征匹配(soft-argmax)即可在无精炼器设定下达到 SOTA 表现。
- FADE: Frequency-Aware Diffusion Model Factorization for Video Editing
-
提出 FADE,一种免训练的视频编辑方法,通过分析 T2V 模型中各 transformer block 的频率角色(sketching vs sharpening),利用频谱引导调制在频域中分离保留与编辑内容,实现高质量的外观和运动编辑。
- FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance
-
FlashMotion 提出了一个三阶段训练框架,将轨迹可控视频生成从多步去噪蒸馏到少步推理(4-8步),通过先训练轨迹适配器、再蒸馏生成器、最后用扩散+对抗混合目标微调适配器的策略,在大幅加速推理的同时保持了视频质量和轨迹精度。
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models
-
CausVid 通过非对称蒸馏将预训练的双向视频扩散 Transformer 蒸馏为因果自回归 4 步生成器,结合 ODE 初始化和 KV 缓存,实现 9.4 FPS 的流式视频生成(比 CogVideoX 快 160×),在 VBench-Long 基准上以 84.27 分排名第一。
- GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
-
GEN3C 提出了一种基于 3D 缓存(point cloud cache)引导的视频生成框架,通过对种子图像预测深度并反投影得到 3D 点云,在生成下一帧时将 3D 缓存按用户指定的相机轨迹渲染为 2D 条件图,从而实现精确的相机控制和跨帧 3D 一致性。
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation
-
提出 FCVG,通过从两个关键帧中提取匹配线段并逐帧线性插值作为帧级条件,注入 SVD 视频生成模型,显著消解了生成式中间帧合成中前向/反向路径的模糊性,实现时序稳定的视频插帧。
- Geometry-guided Online 3D Video Synthesis with Multi-View Temporal Consistency
-
本文提出了一种几何引导的在线视频视角合成方法,通过渐进式深度图优化和截断有符号距离场(TSDF)累积来构建视角和时序一致的深度表示,再用该深度引导预训练的图像融合网络,实现了高效且一致的新视角视频合成。
- HOIGen-1M: A Large-Scale Dataset for Human-Object Interaction Video Generation
-
HOIGen-1M 是首个面向人物交互 (HOI) 视频生成的百万级高质量数据集,通过高效数据筛选管线和 Mixture-of-Multimodal-Experts (MoME) 字幕策略解决了 HOI 视频数据稀缺和描述幻觉问题,并提出 CoarseHOIScore/FineHOIScore 两个评估指标来量化生成视频中交互的质量。
- HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation
-
HunyuanPortrait提出了首个基于Stable Video Diffusion的隐式条件肖像动画框架,通过强度感知运动编码器和ID感知多尺度适配器实现了对精细面部动态的高保真控制和强身份一致性。
- HyperNVD: Accelerating Neural Video Decomposition via Hypernetworks
-
HyperNVD 提出利用超网络 (Hypernetwork) 根据 VideoMAE 编码的视频嵌入动态生成隐式神经表示 (INR) 的参数,实现跨视频的通用视频分解模型,在新视频上可比从头训练快 30+ 分钟达到相同 PSNR,同时最终性能平均提升 0.8dB。
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition
-
ConsisID 提出基于频率分解的 DiT 控制方案,将人脸特征解耦为低频全局信息和高频内在身份信息,分别注入 DiT 的不同位置,实现免微调的身份保持文本到视频生成,在身份保持、文本相关性和视觉质量上全面超越现有方法。
- IDOL: Instant Photorealistic 3D Human Creation from a Single Image
-
IDOL 通过构建包含 10 万人体的大规模多视角数据集 HuGe100K,训练基于 Transformer 的前馈模型在单张图片输入下实现即时(<1秒)的高保真可动画 3D 人体重建,在质量和泛化能力上大幅超越现有方法。
- Improved Video VAE for Latent Video Diffusion Model
-
本文提出 IV-VAE,通过关键帧时序压缩架构(KTC)和组因果卷积(GCConv)解决现有视频 VAE 中图像权重初始化抑制时序压缩学习、以及因果卷积导致帧间性能不均衡的问题,在多个基准上实现 SOTA 视频重建和生成质量。
- InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
-
InterDyn 提出将视频扩散模型作为隐式物理引擎,通过在 Stable Video Diffusion 上引入交互控制分支(ControlNet-like),从单帧图像和驱动运动信号生成物理上合理的交互动力学视频,在 Something-Something-v2 数据集上 FVD 指标超过基线 CosHand 达 77%。
- Learning from Streaming Video with Orthogonal Gradients
-
针对流式视频学习中连续帧高度相关导致梯度冗余、模型崩溃的问题,提出正交梯度优化器(Orthogonal Optimizer),通过将当前梯度投影到历史梯度的正交分量来去相关,可无缝集成到 SGD/AdamW 中,在 DoRA、VideoMAE、未来预测三个场景下均显著恢复了从打乱训练到顺序训练的性能损失。
- Learning Temporally Consistent Video Depth from Video Diffusion Priors
-
提出 ChronoDepth——基于 Stable Video Diffusion (SVD) 的视频深度估计方法,通过在训练时为每帧独立采样噪声水平并在推理时使用无噪声前序帧作为上下文(Consistent Context-Aware Strategy),在保持空间精度的同时实现了 SOTA 的时序一致性,MFC 指标平均排名第一。
- LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis
-
LeviTor首次在image-to-video合成中引入3D物体轨迹控制,通过将物体mask用K-means聚类为少量代表点并结合深度信息作为控制信号注入SVD模型,实现了遮挡关系、前后移动和环绕等复杂3D运动的精准控制,在DAVIS上FID/FVD分别达到25.41/190.44。
- Presto: Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
-
Presto 提出分段交叉注意力(SCA)策略,将隐状态沿时间维度分段并与对应子描述分别交叉注意力,结合精心策展的 261K 高质量长视频数据集 LongTake-HD,实现了 15 秒内容丰富且长程连贯的视频生成,在 VBench 语义得分达到 78.5%、Dynamic Degree 达到 100%。
- LongDiff: Training-Free Long Video Generation in One Go
-
LongDiff 通过理论分析揭示短视频模型生成长视频时的两个关键挑战——时序位置模糊和信息稀释,并提出 Position Mapping(GROUP+SHIFT)和 Informative Frame Selection(IFS)两个简洁的时序注意力修改策略,无需训练即可让短视频模型一次性生成高质量长视频。
- Mimir: Improving Video Diffusion Models for Precise Text Understanding
-
Mimir 提出一个端到端训练框架,通过精心设计的 Token Fuser 将 decoder-only LLM(Phi-3.5)的强文本理解能力与传统 text encoder(T5)的稳定特征无损融合,显著提升视频扩散模型的文本理解精度,尤其在多物体、空间关系和时序理解上大幅领先现有方法。
- MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
-
MIMO 提出一种基于空间分解建模的角色视频合成框架,将 2D 视频按 3D 深度分层为人物、场景和遮挡物三个空间组件,通过解耦编码和组合解码实现了对角色身份、3D 运动和交互场景的灵活控制,在复杂运动和场景交互上显著超越先前方法。
- Mind the Time: Temporally-Controlled Multi-Event Video Generation
-
提出 MinT,首个支持事件时间控制的多事件视频生成器,通过 Rescaled RoPE (ReRoPE) 位置编码将事件描述绑定到特定时间段,在预训练视频 DiT 上微调实现平滑连贯的多事件视频合成。
- MotiF: Making Text Count in Image Animation with Motion Focal Loss
-
提出 Motion Focal Loss (MotiF),通过光流生成运动热力图对扩散损失进行空间加权,引导模型关注高运动区域,显著提升 Text-Image-to-Video 生成中的文本遵循和运动质量,并构建 TI2V-Bench 评测基准。
- Motion Modes: What Could Happen Next?
-
提出 Motion Modes,一种免训练方法,通过设计四种引导能量函数探索预训练图像到视频生成器的潜在分布,从单张图像中发现物体的多种合理且多样的运动模式,同时将物体运动与相机运动解耦。
- Motion Prompting: Controlling Video Generation with Motion Trajectories
-
将时空稀疏/稠密点轨迹作为"运动提示"训练ControlNet,用单一模型实现物体控制、相机控制、运动迁移、拖拽编辑等多种运动控制能力,并展现出逼真物理行为的涌现特性。
- MotionPro: A Precise Motion Controller for Image-to-Video Generation
-
提出 MotionPro,利用区域级轨迹(region-wise trajectory)和运动掩码(motion mask)双重信号,实现细粒度、可区分物体/相机运动的精确可控图像到视频生成。
- MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation
-
提出 MotionStone,通过训练独立的运动强度估计器将视频运动解耦为物体运动和相机运动两个维度,并以解耦方式注入 Diffusion Transformer,实现精细的运动强度可控 I2V 生成。
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation
-
本文提出MovieBench——首个面向电影级长视频生成的层次化数据集,提供电影-场景-镜头三级标注(含角色肖像、字幕和音频),并基于此定义了四个基准任务(文本到关键帧、身份定制长视频、关键帧条件视频、音频驱动说话人生成),揭示了现有模型在多场景叙事一致性上的重大挑战。
- Multi-subject Open-set Personalization in Video Generation
-
提出 Video Alchemist,在 Diffusion Transformer 架构中内置多主体、开放集的视频个性化生成能力,支持前景物体和背景的定制,无需测试时优化。
- Navigation World Models
-
本文提出Navigation World Model (NWM),一个10亿参数的Conditional Diffusion Transformer (CDiT),在多个机器人导航数据集和Ego4D无标签视频上联合训练,通过预测给定动作下的未来视觉观测来模拟导航轨迹,可用于MPC规划或对外部策略(如NoMaD)的轨迹排序,在RECON数据集上的ATE(1.13)和RPE(0.35)均显著优于现有导航策略。
- NeuS-V: Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification
-
提出 NeuS-V,首个用形式化验证(时序逻辑+概率模型检验)评估文本到视频(T2V)模型时序一致性的框架——将文本提示转为时序逻辑规范,用 VLM 评分原子命题,构建视频自动机后形式化验证满足概率,在 Gen-3 上与人类标注 Pearson 相关 0.71(VBench 仅 0.47)。
- One-Minute Video Generation with Test-Time Training
-
本文将 Test-Time Training (TTT) 层引入预训练的 Diffusion Transformer,利用其以神经网络为隐藏状态的高表达能力,实现了从文本故事板生成一分钟连贯长视频的能力,在人类评估中以 34 Elo 分领先于 Mamba 2、Gated DeltaNet 等基线。
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation
-
本文提出 MotionPrompt,一种无需重新训练视频扩散模型的推理时引导方法,通过优化可学习的 token embedding 并结合光流判别器,提升视频生成的时序一致性和运动平滑性。
- OSV: One Step is Enough for High-Quality Image to Video Generation
-
提出两阶段训练框架 OSV,结合 GAN 对抗训练和一致性蒸馏,实现单步高质量图像到视频生成,并设计了无需解码的新型视频判别器。
- Parallelized Autoregressive Visual Generation
-
提出 PAR(Parallelized Autoregressive),通过分析视觉 token 依赖性,将空间距离远的弱依赖 token 并行生成而保持局部强依赖 token 的顺序生成,实现 3.6-9.5 倍加速且质量几乎无损。
- PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-Wise Video Super-Resolution
-
PatchVSR 首次将预训练视频扩散模型(T2V)用于 patch 级别的视频超分辨率,通过双分支适配器(局部 patch 分支 + 全局上下文分支)和无训练的多 patch 联合调制方案,基于 512×512 分辨率的基础模型实现了高保真的 4K 视频超分辨率,同时大幅提升计算效率。
- Pathways on the Image Manifold: Image Editing via Video Generation
-
Frame2Frame (F2F) 将图像编辑重新定义为视频生成任务——利用 image-to-video 模型在图像流形上从源图像到目标编辑生成一条平滑的时间路径,通过 VLM 生成时间编辑描述并自动选帧,在编辑精度和图像保真度之间取得了 SOTA 平衡。
- PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
-
PhyT2V 利用 LLM 的思维链(CoT)和 step-back 推理能力,通过迭代式地分析生成视频与物理规则的不一致、并据此优化文本 prompt,使现有 T2V 模型在无需重新训练的情况下将物理规则遵循度提升最高 2.3 倍。
- PoseTraj: Pose-Aware Trajectory Control in Video Diffusion
-
提出 PoseTraj,一个姿态感知的轨迹引导视频生成模型,通过两阶段姿态感知预训练(利用合成数据集 PoseTraj-10K 和3D包围盒中间监督)和相机运动解耦微调,实现从2D轨迹生成3D对齐的旋转运动视频。
- Protecting Your Video Content: Disrupting Automated Video-Based LLM Annotations
-
本文提出两类对抗性视频水印方法——Ramblings(诱导视频 LLM 生成错误描述)和 Mutes(诱导视频 LLM 生成极短或空描述),通过不可感知的对抗扰动保护个人视频免受未经授权的自动化标注,并验证了这些低质量标注会降低下游文本到视频生成模型的性能。
- SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation
-
提出 SAW(Surgical Action World),通过四种轻量级条件信号(语言提示、参考帧、组织功能图、工具轨迹)驱动视频扩散模型,实现可控、可扩展的手术动作视频生成,用于罕见动作增强和手术仿真。
- Semantic Satellite Communications for Synchronized Audiovisual Reconstruction
-
本文提出了一个面向卫星通信场景的自适应多模态语义传输系统,通过双流生成架构(视频驱动音频 / 音频驱动视频)灵活切换传输路径,结合动态知识库更新机制和 LLM 智能决策模块,在极其有限的卫星带宽下实现高保真的音视频同步重建。
- ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models
-
ShotAdapter 提出了一个轻量框架,通过引入可学习的"转场token"和局部注意力掩码策略,仅需约 5000 次迭代的微调即可将预训练的单镜头 T2V 模型转变为支持多镜头视频生成(T2MSV)的生成器,实现角色身份一致、各镜头独立可控的多镜头视频生成。
- SketchVideo: Sketch-Based Video Generation and Editing
-
基于 DiT 视频生成架构,提出内存高效的草图条件网络和帧间注意力机制,实现通过 1-2 张关键帧草图对视频进行精细的空间布局和几何细节控制,同时支持基于草图的视频局部编辑。
- SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input
-
提出 SpatialDreamer,一种基于视频扩散模型的自监督立体视频合成框架:通过深度引导的视频数据生成模块 (DVG) 解决立体视频训练数据不足问题,通过 RefinerNet 框架和一致性控制模块(立体偏差强度 + 时序交互学习 TIL)确保生成立体视频的几何与时间一致性,性能超越 Apple Vision Pro 3D 转换器。
- Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling
-
STG(Spatiotemporal Skip Guidance)提出通过选择性跳过 Transformer 的时空层来构造隐式弱模型,作为原模型的退化版本进行自扰动引导,无需额外训练即可提升视频扩散模型的生成质量,同时保持样本多样性和运动动态性,克服了 CFG 在视频生成中导致多样性和动态性下降的根本缺陷。
- StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
-
提出 StreamingT2V,一种自回归文本到长视频生成方法,通过短期记忆模块(CAM)和长期记忆模块(APM)实现长达 2 分钟以上(1200+ 帧)的无缝、高运动量视频生成。
- StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
-
提出 StreetCrafter,利用 LiDAR 点云渲染作为像素级条件来控制视频扩散模型,实现精确相机控制的街景新视角合成,并可将生成先验蒸馏到动态 3DGS 表示中实现实时渲染。
- Taming Teacher Forcing for Masked Autoregressive Video Generation
-
MAGI 提出 Complete Teacher Forcing(CTF)范式,在训练时条件化于完整观察帧而非掩码帧,消除训练-推理差距,FVD 提升 23%,仅训练 16 帧即可生成超过 100 帧的连贯视频。
- Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation
-
提出首个基于自回归 Transformer 的实时流式音频驱动肖像动画框架 Teller,通过 RVQ 将面部运动离散化为 token,结合高效时序模块精炼身体细节,以 25 FPS 实时速度(生成 1s 视频仅需 0.92s vs Hallo 20.93s)达到与扩散模型可比的动画质量。
- The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
-
RAPO 提出一个检索增强的 Prompt 优化框架,通过从训练数据中构建关系图检索相关修饰语、微调 LLM 重构句式、以及判别器选取最优 prompt,将用户简短 prompt 转换为与训练数据分布对齐的优化 prompt,在 VBench 上将多物体生成从 37.71% 提升至 64.86%。
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
-
本文提出 Through-The-Mask(TTM),一种两阶段组合式 I2V 框架,以基于掩码的运动轨迹(mask-based motion trajectory)作为中间表示,将图像到视频的生成分解为"运动生成"和"视频生成"两个阶段,在多物体复杂运动场景中取得SOTA效果。
- Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
-
本文提出 TeaCache,一种免训练的视频扩散模型缓存加速方法,通过时间步嵌入调制噪声输入来估计相邻时间步模型输出的差异,配合多项式拟合进行缩放校准,从而自适应决定何时缓存/复用输出,在 Open-Sora-Plan 上实现 4.41× 加速且视觉质量几乎无损(VBench 仅降 0.07%)。
- TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation
-
TokenMotion 提出首个基于 DiT 的视频扩散框架,通过将相机轨迹和人体姿态表示为时空 token,并利用"解耦-融合"策略与人体感知动态掩码,实现对相机运动与人体运动的精细联合控制,在 text-to-video 和 image-to-video 范式上均超越现有 SOTA。
- Tora: Trajectory-Oriented Diffusion Transformer for Video Generation
-
提出 Tora,首个面向轨迹控制的 Diffusion Transformer(DiT)视频生成框架,通过轨迹提取器(3D VAE 编码运动轨迹为时空 patch)和运动引导融合器(自适应归一化注入 DiT 块),实现了可扩展的、支持多分辨率/多时长/多宽高比的轨迹控制视频生成,在 128 帧测试中轨迹精度比 UNet 方法高 3-5 倍。
- Towards Precise Scaling Laws for Video Diffusion Transformers
-
本文首次系统验证了视频扩散 Transformer(Video DiT)中缩放法则的存在,并发现视频模型比语言模型对学习率和 batch size 更敏感,提出了同时预测最优超参数、最优模型大小和验证损失的精确缩放法则公式,在相同计算预算下可减少 40.1% 的推理成本或 39.9% 的模型大小。
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better
-
Tracktention 提出了一种基于点追踪的新型注意力层,通过将预提取的点轨迹信息注入 Vision Transformer,实现运动感知的时序特征聚合,能将纯图像模型升级为 SOTA 视频模型,在视频深度预测和视频着色任务上显著提升时序一致性。
- TransPixeler: Advancing Text-to-Video Generation with Transparency
-
TransPixeler 提出在预训练的 DiT 视频生成模型中引入 alpha 通道 token,通过位置编码共享、域嵌入、部分 LoRA 微调和注意力掩码设计,在极少 RGBA 训练数据下实现高质量的 RGB 与 alpha 通道联合生成。
- Unified Dense Prediction of Video Diffusion
-
提出 UDPDiff,首次在视频扩散模型中实现 RGB 视频生成与实体分割、深度估计的联合生成,通过 Pixelplanes 统一表示和可学习任务嵌入提升视频质量和一致性。
- VEU-Bench: Towards Comprehensive Understanding of Video Editing
-
提出 VEU-Bench,首个全面评估视频大模型对视频编辑元素理解能力的基准,涵盖10个编辑维度、3个评估层级(识别/推理/判断)共19个细粒度任务,并训练专家模型 Oscars 超越开源SOTA 28.3%。
- Video-Bench: Human-Aligned Video Generation Benchmark
-
本文提出 Video-Bench,一个全面的视频生成评估基准,通过 Chain-of-Query 和 Few-Shot Scoring 两种技术系统性地利用多模态大语言模型(MLLM)自动评估生成视频,在所有评估维度上实现了与人类偏好最高的对齐度。
- Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval
-
将文本检索中ColBERT的后交互引入文本-视频检索,提出Video-ColBERT,通过在帧级和视频级两个层面执行MeanMaxSim交互,配合双Sigmoid损失训练独立且兼容的多粒度表征,在多个T2VR benchmark上超越现有双编码器方法。
- VideoDirector: Precise Video Editing via Text-to-Video Models
-
VideoDirector 提出了时空解耦引导(STDG)、多帧 Null-Text 优化和自注意力控制策略,首次成功地将经典的"反演-编辑"范式应用于 T2V 模型(AnimateDiff),实现了高保真、时间一致、运动自然的精确视频编辑。
- VideoDPO: Omni-Preference Alignment for Video Diffusion Generation
-
VideoDPO 首次将 DPO(Direct Preference Optimization)适配到视频扩散模型,提出 OmniScore 综合评分体系同时衡量视觉质量和语义对齐,结合自动偏好数据生成 pipeline 和基于分数差异的数据重加权策略,在 VideoCrafter2、T2V-Turbo 和 CogVideoX 上均取得了显著的偏好对齐提升。
- VideoGigaGAN: Towards Detail-rich Video Super-Resolution
-
提出 VideoGigaGAN,首个大规模 GAN 视频超分模型,通过光流引导特征传播、抗锯齿模块和高频穿梭机制,在保持时序一致性的同时生成丰富的高频细节,支持 8× 超分。
- VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide
-
VideoGuide 提出了一种无需额外训练的视频扩散模型增强框架,通过在反向扩散采样的早期阶段利用任意预训练视频扩散模型(或自身)作为教师,将教师模型的去噪样本与采样模型进行插值融合,显著提升视频的时序一致性而不损害图像质量。
- VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step
-
VideoScene 提出了一种 3D 感知的跳跃式流蒸馏(Leap Flow Distillation)策略,将视频扩散模型蒸馏为一步生成器,从两张稀疏视角图像生成具有 3D 一致性的视频,配合动态去噪策略网络(DDPNet)自适应选择最优起始噪声水平,在速度上从 2 分钟压缩到 3 秒的同时保持了高质量。
- VidTwin: Video VAE with Decoupled Structure and Dynamics
-
提出 VidTwin,将视频解耦为 Structure Latent(全局内容和整体运动)和 Dynamics Latent(细粒度细节和快速运动)两个独立潜空间,以 0.20% 的极高压缩率实现 28.14 PSNR 的高质量重建。
- ViReS: Video Instance Repainting via Sketch and Text Guided Generation
-
提出ViReS框架,通过草图和文本双重引导实现视频中特定实例的重绘,利用时序注意力和实例掩码保持背景不变和时间一致性,在多种视频编辑场景下生成高质量结果。
- Visual Prompting for One-Shot Controllable Video Editing Without Inversion
-
本文从视觉提示(Visual Prompting)的全新视角解决一次性可控视频编辑(OCVE)问题,通过图像修复扩散模型完成编辑传播,并提出内容一致性采样(CCS)和时序-内容一致性采样(TCS)两种采样策略,无需 DDIM 反演即可实现高质量可控视频编辑。
- When to Lock Attention: Training-Free KV Control in Video Diffusion
-
提出 KV-Lock,一种基于扩散幻觉检测的免训练视频编辑框架,通过动态调度 KV 缓存融合比例和 CFG 引导尺度,在保持背景一致性的同时增强前景生成质量。
- World-Consistent Video Diffusion with Explicit 3D Modeling
-
本文提出 WVD(World-consistent Video Diffusion),通过训练扩散模型联合建模 RGB 图像和 XYZ 图像(编码全局3D坐标),实现了显式3D约束下的多视角一致性视频生成,并通过灵活的 inpainting 策略统一了单图3D重建、多视角立体、相机控制生成等多种任务。
- World2Act: Latent Action Post-Training via Skill-Compositional World Models
-
World2Act 提出了一种基于潜在空间对齐的 VLA 后训练方法:通过对比学习将 World Model 的视频动态潜表示与 VLA 的动作表示对齐(而非在像素空间监督),并引入 LLM 驱动的技能分解流水线实现任意长度视频生成,在 RoboCasa 和 LIBERO 上以 50 条合成轨迹即达到 SOTA,真实世界提升 6.7%。
- Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
-
提出 Zero-1-to-A,通过共生生成(SymGEN)和渐进式学习策略,从单张图片利用预训练视频扩散模型生成高保真可动画化 4D 头部虚拟形象,有效解决了视频扩散的时空不一致性问题。