ReCamMaster: Camera-Controlled Generative Rendering from A Single Video¶

会议: ICCV 2025
arXiv: 2503.11647
代码: https://github.com/KwaiVGI/ReCamMaster
领域: 视频理解
关键词: 相机控制, 视频重渲染, 视频生成, 扩散模型, 多相机数据集

一句话总结¶

提出 ReCamMaster，通过帧维度拼接的视频条件注入机制和 UE5 合成的多相机同步数据集，实现从单视频输入以新相机轨迹重新生成视频，显著超越现有方法。

研究背景与动机¶

相机运动是影视制作的基础元素，深刻影响观众体验和叙事意图。然而，业余摄影师受限于硬件和技术，难以实现专业级相机运动。研究者希望在后期修改视频的相机轨迹，以更好的视角展示动态场景。

现有工作的不足：

GCD 开创了相机控制的视频到视频生成，但受限于 Kubric 合成数据的域差距，在真实视频上效果有限

ReCapture 需要逐视频优化（LoRA 微调），实用性受限 3. 基于 4D 重建的方法依赖单视频重建精度，质量受限

核心动机：利用预训练文本到视频（T2V）模型的生成能力，通过简洁而强大的视频条件注入机制，实现开放域的相机轨迹修改。

方法详解¶

整体框架¶

ReCamMaster 基于预训练的 T2V 扩散模型（DiT 架构 + 3D VAE + Rectified Flow），以源视频 \(V_s\)、目标相机轨迹 \(\text{cam}_t\) 和文本提示 \(p_t\) 为条件，生成目标视频 \(V_t\)。框架包含三个关键设计：帧维度条件注入、相机位姿编码、以及多任务训练策略。

关键设计¶

帧维度条件注入（Frame Dimension Conditioning）：将源视频 token 和目标视频 token 沿帧维度拼接，\(x_i = [x_s, x_t]_{\text{frame-dim}} \in \mathbb{R}^{b \times 2f \times s \times d}\)。无需额外注意力层，源/目标视频在 3D 时空注意力中自然交互。相比通道维度拼接（GCD 等方法）和视图维度拼接，帧维度拼接能在所有 Transformer 块中实现源/目标的全时空交互，保留内容一致性和动态同步。
相机位姿编码：仅条件化目标相机的外参 \(\text{cam}_t \in \mathbb{R}^{f \times 3 \times 4}\)（旋转+平移矩阵），不使用源相机参数（因推理时难以精确估计）。通过可学习的相机编码器 \(\mathcal{E}_c\)（全连接层，12→d）将相机参数注入到每个 Transformer 块的空间注意力输出上：\(F_i = F_o + \mathcal{E}_c(\text{cam}_t)\)。
多相机同步数据集（Multi-Cam Video）：使用 Unreal Engine 5 构建 136K 视频、13.6K 动态场景、40 个高质量 3D 环境、122K 不同相机轨迹。精心模拟真实拍摄特征，缩小合成-真实域差距。

损失函数 / 训练策略¶

基础损失：Conditional Flow Matching 的速度回归损失 \(\mathcal{L}_{LCM}\)
增强泛化能力：仅微调相机编码器和 3D 注意力层，冻结其他参数；对条件视频 latent 添加中等噪声（200-500 步），缓解合成域差距
多任务统一训练：以 20% 概率替换所有帧为噪声（T2V 任务），以 20% 概率替换 \(f-1\) 帧（I2V 任务），增强内容生成能力

实验关键数据¶

主实验¶

在 WebVid 1000 视频 + 10 种相机轨迹上评估：

方法	FID↓	FVD↓	CLIP-T↑	RotErr↓	TransErr↓	Mat.Pix.(K)↑	FVD-V↓	CLIP-V↑
GCD	72.83	367.32	32.86	2.27	5.51	639.39	365.75	85.92
Traj-Attn	69.21	276.06	33.43	2.18	5.32	619.13	256.30	88.65
DaS	63.25	159.60	33.05	1.45	5.59	633.53	154.25	87.33
ReCamMaster	57.10	122.74	34.53	1.22	4.85	906.03	90.38	90.36

VBench 质量评估：

方法	Aesthetic↑	Imaging Quality↑	Temporal Flickering↑	Subject Consistency↑	Background Consistency↑
GCD	38.21	41.56	95.81	88.94	92.00
ReCamMaster	42.70	53.97	97.36	92.05	93.83

消融实验¶

视频条件方式	FID↓	FVD↓	Mat.Pix.(K)↑	FVD-V↓	CLIP-V↑
通道维度拼接	74.09	187.94	521.10	148.51	84.62
视图维度拼接	80.51	194.47	573.92	177.68	83.40
帧维度拼接	57.10	122.74	906.03	90.38	90.36

训练策略消融：

策略	FID↓	FVD↓	Aesthetic↑	Imaging Quality↑
Baseline	66.67	171.80	40.02	51.93
+ 添加噪声	65.17	164.04	40.36	52.22
+ 3D-Attn 微调	59.47	132.58	43.08	52.80
+ 全部策略	57.10	122.74	42.70	53.97

关键发现¶

帧维度拼接显著优于其他条件注入方式，匹配像素数提升 73%（906K vs 521K）
模型还可拓展到视频稳定、超分辨率和视频外拓等应用

亮点与洞察¶

帧维度拼接机制简洁优雅，无需额外模块即可利用预训练模型的全部时空注意力实现条件生成
UE5 数据集的真实拍摄模拟设计是泛化到真实视频的关键
多任务训练（T2V/I2V/V2V 统一）是提升内容生成能力的有效策略

局限与展望¶

帧维度拼接使输入 token 翻倍，增加计算开销
继承预训练 T2V 模型的缺陷（如手部生成效果不佳）
仅使用外参条件化，未利用内参信息

评分¶

维度	分数
创新性	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
总体	⭐⭐⭐⭐