跳转至

🎬 视频生成

📹 ICCV2025 · 51 篇论文解读

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

本文提出对抗分布匹配(ADM)框架,通过基于扩散模型的判别器以对抗方式对齐真假分数估计器的潜在预测,替代DMD中预定义的KL散度,结合对抗蒸馏预训练(ADP),在SDXL上实现一步生成超越DMD2,并在SD3和CogVideoX上刷新多步蒸馏基准。

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

提出对抗式分布匹配(ADM)框架,用基于扩散模型的判别器以隐式、数据驱动的方式对齐真假分数估计器的潜在预测,取代DMD中预定义的KL散度,结合对抗蒸馏预训练(ADP)形成DMDX管线,在SDXL一步生成上超越DMD2,并扩展到SD3和CogVideoX视频生成。

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

提出AID框架,将预训练的Image2Video扩散模型(SVD)迁移至文本引导视频预测任务,通过MLLM辅助的视频状态预测、双查询Transformer条件注入和时空适配器,在多个数据集上FVD指标超越前SOTA 50%以上。

Aligning Moments in Time using Video Queries

本文提出MATR(Moment Alignment TRansformer),通过双阶段序列对齐(soft-DTW)将目标视频表示条件化于查询视频特征,实现视频到视频的时刻检索(Vid2VidMR),并设计自监督预训练策略,在ActivityNet-VRL上R@1提升13.1%、mIoU提升8.1%。

BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

首次提出针对文本到视频(T2V)生成模型的后门攻击框架BadVideo,利用视频中固有的静态和动态冗余信息(如未被文本指定的环境元素、运动轨迹等),通过时空组合和动态元素转换两类策略隐蔽地嵌入恶意内容,在LaVie和Open-Sora上实现高达93.5%的人类评估攻击成功率,同时有效规避现有内容审核系统。

Causal-Entity Reflected Egocentric Traffic Accident Video Synthesis

本文提出Causal-VidSyn扩散模型,通过事故原因问答(ArA)模块和驾驶员注视条件的视觉token选择机制实现因果实体定位,并构建了包含154万帧注视数据的Drive-Gaze数据集,在事故视频编辑、正常到事故视频扩散、文本到视频生成三个任务中超越SOTA。

D3: Training-Free AI-Generated Video Detection Using Second-Order Features

本文从牛顿力学的二阶控制系统出发,发现真实视频和 AI 生成视频在二阶时序特征("加速度")上存在本质差异——真实视频波动大而生成视频平坦,据此提出 D3,一种完全免训练的 AI 生成视频检测方法,仅需计算帧间特征的二阶差分标准差即可判别,在 40 个测试子集上达到 SOTA。

DACoN: DINO for Anime Paint Bucket Colorization with Any Number of Reference Images

提出DACoN,利用DINOv2基础模型的语义特征与U-Net的高分辨率空间特征融合,实现支持任意数量参考图像的动画线稿自动上色,在关键帧和连续帧上色任务中均超越现有方法。

Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer

针对 DiT 模型中 3D 全注意力机制导致的运动-外观难以解耦问题,提出共享时序核(Shared Temporal Kernel)和稠密点跟踪损失(Dense Point Tracking Loss),同时建立了更全面的运动迁移基准 MTBench 和混合运动保真度指标。

DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation

推出 DH-FaceVid-1K,一个包含 1,200+ 小时、270,043 个视频片段、20,000+ 个人身份的大规模高质量人脸视频数据集,重点解决现有数据集中亚洲人脸严重不足的问题,并通过系统实验验证了数据规模与模型参数的缩放定律。

Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning

提出DisWM框架,通过从"干扰视频"中预训练解纠缠表示,然后通过离线到在线的潜空间蒸馏将语义知识迁移到下游世界模型,提升视觉强化学习在环境变化下的样本效率和鲁棒性。

DIVE: Taming DINO for Subject-Driven Video Editing

提出DIVE框架,利用预训练DINOv2模型的语义特征作为隐式对应关系来引导主体驱动的视频编辑,通过DINO特征进行时序运动建模和目标主体身份注册,实现高质量的主体替换同时保持运动一致性。

DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

提出 DOLLAR,结合变分分数蒸馏(VSD)和一致性蒸馏(CD)实现少步视频生成,并引入潜在奖励模型微调策略进一步提升质量,4 步学生模型在 VBench 上达到 82.57 分超越教师模型和 Gen-3、Kling 等基线,单步蒸馏实现 278.6 倍加速。

DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

结合变分分数蒸馏(VSD)和一致性蒸馏实现少步视频生成,同时提出潜空间奖励模型微调方法进一步优化特定质量维度,4步student模型在VBench上达82.57分超越teacher模型和Gen-3/Kling等商业基线,1步蒸馏实现278.6倍采样加速。

DreamRelation: Relation-Centric Video Customization

提出 DreamRelation,首个关系中心的视频定制方法,通过 Relation LoRA Triplet + Hybrid Mask Training 实现关系与外观的解耦,并通过时空关系对比损失增强关系动态学习,使动物能模仿人类交互。

Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

本文分析一致性模型蒸馏中高/低噪声水平的优化冲突,提出参数高效的双专家一致性模型(DCM),语义专家负责布局和运动、细节专家负责精细细节,配合时序一致性损失和GAN+特征匹配损失,在HunyuanVideo(13B)上实现4步采样接近50步基线质量。

DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization

DualReal 首次提出身份与运动的自适应联合训练框架,通过 Dual-aware Adaptation 和 StageBlender Controller 实现两个维度的无损融合,在 CLIP-I 和 DINO-I 指标上平均提升 21.7% 和 31.8%。

EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models

提出 EfficientMT,一个高效的端到端视频运动迁移框架,通过复用预训练 T2V 模型骨干提取时序运动特征,结合 scaler 模块和时序集成机制,仅用少量合成配对数据即可实现零样本运动迁移,推理时间较优化方法提速 10 倍以上。

ETVA: Evaluation of Text-to-Video Alignment via Fine-Grained Question Generation and Answering

提出ETVA,一种基于细粒度问题生成与回答的文本-视频对齐评估方法,通过多智能体场景图遍历生成原子问题、知识增强多阶段推理回答问题,在与人类判断的相关性上大幅超越现有指标(Spearman's ρ 58.47 vs 31.0),并构建了包含2k prompts和12k问题的评估基准。

Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Video Generation

提出 SynFMC 合成数据集(首个包含相机和物体完整 6D 位姿标注的视频数据集)和 FMC 方法,实现了在文本到视频生成中独立或同时控制相机和物体的 6D 位姿,在多种场景下生成高保真视频,且兼容多种个性化 T2I 模型。

FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling

提出 FuXi-RTM,首个将深度学习辐射传输模型 (DLRTM) 作为可微物理正则化器集成到天气预报框架中的混合物理引导体系,在 88.51% 的变量-预报时效组合上超越无约束基线。

FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation

本文提出 FVGen,一个将多步视频扩散模型(VDM)蒸馏为仅需 4 步采样的快速学生模型的框架,通过 GAN 目标的学生初始化和软化反向 KL 散度优化,实现了保持甚至超越教师模型视觉质量的同时减少 90% 以上的采样时间。

Generating, Fast and Slow: Scalable Parallel Video Generation with Video Interface Networks

提出 Video Interface Networks (VINs),一种类似"快思考"的抽象模块,在每个扩散步中将长视频编码为固定大小的全局 token,引导 DiT 并行生成多个视频 chunk,实现高效且时序一致的长视频生成。

LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

提出 LeanVAE,基于非重叠 Patch 操作、邻域感知前馈(NAF)模块、小波变换和压缩感知技术,构建超高效视频 VAE,在仅 40M 参数下实现 FLOPs 减少 50 倍、推理速度加快 44 倍,同时保持有竞争力的重建质量。

Long Context Tuning for Video Generation

本文提出Long Context Tuning(LCT),将预训练单镜头视频扩散模型的上下文窗口扩展到场景级别,通过交错3D位置嵌入和异步噪声策略实现跨镜头视觉/时序一致性,无需额外参数即支持联合和自回归多镜头生成,并展现出组合生成等涌现能力。

MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

MagicDrive-V2 提出了基于 DiT + 3D VAE 的多视角驾驶视频生成框架,通过时空条件编码模块和渐进式训练策略,实现了 848×1600×6 视角、241 帧的高分辨率长视频生成,显著超越现有方法的分辨率和帧数限制。

MagicMirror: ID-Preserved Video Generation in Video Diffusion Transformers

MagicMirror 是首个基于 Video Diffusion Transformer(CogVideoX)实现零样本身份保持视频生成的框架,通过双分支面部特征提取、条件自适应归一化(CAN)和图像预训练+视频微调两阶段策略,在保持人脸身份一致性的同时生成高质量动态视频。

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

提出 MotionAgent,通过运动场代理(Motion Field Agent)将文本中的运动描述转化为物体轨迹和相机外参,再经解析式光流合成模块统一为光流图,实现仅凭文本输入即可对 I2V 生成中的物体运动和相机运动进行细粒度精确控制。

MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation

提出 MotionShot,一个无需训练的运动迁移框架,通过高层语义对齐和低层形态对齐的两级运动对齐策略,实现在外观和结构差异显著的任意参考-目标物体对之间的高保真运动迁移。

Multi-identity Human Image Animation with Structural Video Diffusion

本文提出Structural Video Diffusion框架,通过基于掩码引导的身份特定嵌入保持多人外观一致性,联合学习RGB/深度/法线三模态几何结构信息建模人物-物体交互,配合25K多人交互视频数据集Multi-HumanVid,实现多身份人体视频生成。

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

NormalCrafter 基于视频扩散模型(SVD)提出视频法线估计方法,通过语义特征正则化(SFR)和两阶段训练策略,生成具有精细细节和时序一致性的法线序列,在视频基准上大幅超越现有单帧方法。

OCK: Unsupervised Dynamic Video Prediction with Object-Centric Kinematics

提出 OCK(Object-Centric Kinematics),在以对象为中心的视频预测中引入显式的运动学属性(位置、速度、加速度)作为 Slot 表示的补充,通过 Joint-OCK 和 Cross-OCK 两种 Transformer 变体融合外观与运动信息,在复杂合成和真实场景中显著提升动态视频预测质量。

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

提出 OmniHuman,一种基于 Diffusion Transformer 的多条件人体动画生成框架,通过混合文本/音频/姿态等运动相关条件的全条件训练策略实现数据规模化,首次实现单一模型支持任意身体比例、任意宽高比输入的音频驱动人体视频生成,在肖像和半身动画任务上均达到 SOTA。

Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

提出Prompt-A-Video,通过奖励引导的提示词进化流水线自动构建训练数据,经过SFT和DPO两阶段优化LLM,生成针对特定视频扩散模型偏好对齐的增强提示词。

Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization

本文提出UMIVR框架,显式量化文本视频检索中的三种不确定性——文本歧义(语义熵)、映射不确定性(JS散度)和帧不确定性(时序质量帧采样),基于量化的不确定性自适应生成澄清问题,迭代精炼查询,在MSR-VTT-1k上经10轮交互达到69.2% R@1。

RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control

提出 RealCam-I2V,通过集成单目度量深度估计构建3D场景实现度量尺度对齐训练,并提供交互式3D场景轨迹绘制界面和场景约束噪声整形机制,解决了现有轨迹引导I2V方法的尺度不一致和真实世界可用性问题。

Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

Reangle-A-Video 将多视角视频生成重新定义为视频到视频翻译问题,通过自监督微调视频扩散模型学习视角不变运动,配合 DUSt3R 引导的多视角一致性 inpainting,从单目视频生成同步多视角视频。

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

提出 ReCamMaster,通过帧维度拼接的视频条件注入机制和 UE5 合成的多相机同步数据集,实现从单视频输入以新相机轨迹重新生成视频,显著超越现有方法。

SteerX: Creating Any Camera-Free 3D and 4D Scenes with Geometric Steering

SteerX 提出了一种零样本推理时引导方法,通过将场景重建融入视频生成过程中,利用无需相机参数的前馈重建模型设计几何奖励函数,引导生成分布朝向更好的几何一致性,实现了高质量的无相机条件 3D/4D 场景生成。

STiV: Scalable Text and Image Conditioned Video Generation

本文提出 STIV,一个基于 Diffusion Transformer 的统一文本-图像条件视频生成框架,通过帧替换策略整合图像条件并引入联合图像-文本 classifier-free guidance,在单一模型中同时实现 T2V 和 TI2V 生成,8.7B 参数模型在 VBench T2V 和 I2V 上分别达到 83.1 和 90.1 的 SOTA 成绩。

SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization

提出 SweetTok 视频 tokenizer,通过解耦查询自编码器(DQAE)分离空间和时间信息压缩、运动增强语言码本(MLC)按词性分配码字,在仅使用 25% token 数量的情况下,rFVD 改善 42.8%,gFVD 改善 15.1%,实现压缩率与重建保真度的最佳平衡。

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

构建了首个百万规模的真实用户文本和图像Prompt数据集TIP-I2V(170万+唯一prompt对),包含5个SOTA图像到视频模型的生成视频,并基于此提出了TIP-Eval评估基准、用户偏好分析、以及视频真伪检测等多个研究方向。

VACE: All-in-One Video Creation and Editing

本文提出VACE,一个基于Diffusion Transformer的视频生成与编辑一体化框架,通过统一的Video Condition Unit (VCU)接口和可插拔的Context Adapter结构,用单一模型覆盖参考生成、视频编辑、mask编辑等12+种视频任务,性能与任务专用模型持平。

VACE: All-in-One Video Creation and Editing

提出VACE统一视频创建和编辑框架,通过Video Condition Unit(VCU)将文本/图像/视频/掩码统一为条件输入,结合Context Adapter注入任务概念到DiT模型,首次在单一视频DiT中同时支持参考生成、视频编辑、掩码编辑及其自由组合。

Versatile Transition Generation with Image-to-Video Diffusion

本文提出VTG统一过渡视频生成框架,基于图像到视频扩散模型,通过插值初始化(噪声SLERP+LoRA插值+文本SLERP)、双向运动微调和DINOv2表征对齐正则化,在物体变形、运动预测、概念融合、场景过渡四类任务上实现平滑高保真过渡。

V.I.P.: Iterative Online Preference Distillation for Efficient Video Diffusion Models

提出 ReDPO 损失函数和 V.I.P. 迭代在线偏好蒸馏框架,将偏好学习 (DPO) 与 SFT 正则化相结合用于剪枝后视频扩散模型的蒸馏,在参数减少 36.2%-67.5% 的情况下匹配甚至超越完整模型性能。

VMBench: A Benchmark for Perception-Aligned Video Motion Generation

提出 VMBench——首个面向视频运动质量评估的综合基准,包含五维感知对齐运动指标(PMM)和元信息引导的运动提示生成框架(MMPG),覆盖 969 类运动类型,在 Spearman 相关系数上比现有方法平均提升 35.3%。

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

提出 VPO 框架,基于三大原则(无害、准确、有用)系统性优化视频生成的文本提示,通过原则导向的SFT和多反馈偏好优化,显著提升生成视频的安全性、对齐度和质量。

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution

首次将 Mamba 引入视频超分辨率(VSR),提出 VSRM 框架,通过双聚合Mamba块实现高效时空建模,结合可变形交叉Mamba对齐和频域损失,在多个基准上取得 SOTA。

WorldScore: A Unified Evaluation Benchmark for World Generation

提出 WorldScore —— 首个统一的世界生成评估基准,将世界生成分解为一系列"下一场景生成"任务,支持对 3D、4D、I2V 和 T2V 模型的统一评测,并涵盖 3000 个测试样本和 10 项指标。

X-Dancer: Expressive Music to Human Dance Video Generation

X-Dancer 提出了一个统一的 Transformer-扩散框架,从单张静态图像和音乐输入出发,通过自回归 Transformer 生成与音乐节拍同步的 2D 全身舞蹈姿态 token 序列,再利用扩散模型将这些 token 转化为高保真的舞蹈视频,在多样性、表达力和视频质量上均超越了现有方法。