ShowMak3r++: Compositional Entertainment Video Reconstruction¶
会议: CVPR 2025
arXiv: 2504.19584
代码: https://nstar1125.github.io/showmak3r/ (项目页)
领域: 人体理解
关键词: 动态辐射场, 3D高斯, 电视节目重建, 人体定位, 人脸拟合
一句话总结¶
本文提出 ShowMak3r++,一个从电视节目和网络视频重建动态辐射场的组合式管线,核心创新包括基于深度先验的时空定位模块、跨镜头演员关联的 ShotMatcher,以及隐式人脸拟合网络,支持演员重定位、插入、删除等后制编辑应用。
研究背景与动机¶
领域现状:4D场景重建近年取得显著进展,NeRF 和 3DGS 已能从同步多视角或单目视频重建动态场景。数据驱动方法(如 MonST3R、Shape of Motion)能从单目视频生成动态点云,但输出非参数化表示,无法做到照片级真实感的后制编辑。
现有痛点:电视节目和网络视频给重建带来独特挑战:(1) 多个演员互相遮挡、有丰富表情变化;(2) 镜头切换导致突然的视角跳变;(3) 相机基线窄,只能观察场景正面,背面信息缺失。现有4D重建方法在这类场景下因人-场景对齐不准和人体变形不一致而失败。
核心矛盾:前作 ShowMak3r 仅适用于受控环境(可从其他剧集获取额外背景图),且其 3DLocator 模块仅依赖深度对齐来定位演员,导致演员与舞台穿模或运动抖动。需要一个既适用于受控环境又适用于非受控网络视频的统一管线。
本文目标:构建一个综合重建管线,能从电视节目和网络视频重建动态辐射场,像导播室一样实现场景后制编辑。
切入角度:将问题分解为舞台重建、演员定位、跨镜头追踪和表情恢复四个子问题,用组合式3D高斯表示使各部分可独立编辑。
核心 idea:提出时空定位模块同时考虑2D图像对齐和3D运动自然性来精确放置演员,用 ShotMatcher 解决镜头切换下的演员关联问题。
方法详解¶
整体框架¶
输入为电视节目或网络视频。Pipeline 分为:(1) 预处理——用 GLOMAP/Pi3 估计相机姿态,用单目深度估计获取引导深度图;(2) 舞台重建——用 3DGS + 深度引导损失重建背景 \(\mathcal{G}^{\text{stage}}\);(3) 时空定位——将 SMPL 人体模型定位到舞台上正确位置;(4) ShotMatcher——跨镜头关联演员身份;(5) 演员外观重建+人脸拟合——恢复每帧动态表情。最终所有3D高斯组合 \(\mathcal{G}^{\text{composite}} = \mathcal{G}^{\text{stage}} \cup \{\mathcal{G}_n^{\text{actor}}\}\) 渲染出新视角。
关键设计¶
-
时空定位模块(Spatio-Temporal Positioning):
- 功能:将估计的 SMPL 人体模型准确放置在3D舞台上,同时保证2D投影对齐和3D运动自然
- 核心思路:与前作 3DLocator 仅用深度对齐不同,新模块同时优化三个目标:(1) 2D 图像对齐——渲染的 SMPL 与原始图像中的人体轮廓匹配;(2) 深度一致性——人体与舞台深度图的贴合;(3) 3D 轨迹平滑——通过时间维度的正则化避免帧间抖动和穿模。还能通过插值解决因遮挡导致的不可见姿态
- 设计动机:3DLocator 仅靠深度容易导致演员嵌入舞台或运动不自然,联合优化三个约束提供鲁棒的3D定位
-
ShotMatcher(跨镜头演员追踪):
- 功能:在镜头切换时关联不同镜头中的同一演员
- 核心思路:在镜头边界处计算相邻镜头中演员之间的成对距离(基于外观特征和空间位置),通过匈牙利算法求解最优关联。即使某些演员在特定镜头中不可见也能处理,通过前后镜头的信息传播维持连续追踪
- 设计动机:电视节目的多镜头切换编辑是连续叙事流,需要跨越不连续的视角跳变维持演员身份一致性
-
隐式人脸拟合网络(Implicit Face-Fitting Network):
- 功能:动态恢复演员每帧的面部表情变化
- 核心思路:不同于使用预训练表情编码器(需多视角人脸图)或直接用 SMPL-X 表情参数(难捕获细微表情),设计一个隐式变形网络来学习从SMPL canonical space到每帧表情的变形场。通过渲染损失端到端训练,无需额外表情标注
- 设计动机:电视节目中演员表情是关键表现元素,简单但有效的隐式变形方案避免了对多视角数据和表情编码器的依赖
损失函数 / 训练策略¶
舞台重建使用 \(\mathcal{L}_{\text{background}} = (1-\lambda)\mathcal{L}_{\text{color}} + \lambda\mathcal{L}_{\text{D-SSIM}} + \lambda_d\mathcal{L}_{\text{depth}} + \lambda_s\mathcal{L}_{\text{TV}}\),其中深度损失采用 log-L1 形式提升收敛性。用 SAM 分割演员获取 mask,训练时屏蔽瞬态物体。对于网络视频场景,用 Pi3 替代 GLOMAP 获取相机姿态,用采样代替额外背景图。
实验关键数据¶
主实验¶
| 方法 | Sitcoms3D | CMU Panoptic | 网络视频 |
|---|---|---|---|
| ShowMak3r++ | 新视角渲染质量最佳 | 成功重建多人动态场景 | 适用于动作片/舞蹈/电影片段 |
| ShowMak3r (前作) | 仅受控环境 | - | 不支持 |
| MonST3R | 点云不够真实 | - | 仅点云输出 |
| Shape of Motion | 无法处理镜头切换 | - | 有限支持 |
消融实验¶
| 配置 | 关键效果 |
|---|---|
| 无时空定位 → 仅深度对齐 | 演员穿模、运动抖动 |
| 无ShotMatcher | 跨镜头演员身份错乱 |
| 无人脸拟合 | 表情僵硬,缺少细节 |
| 无深度引导 | 舞台重建稀疏不完整 |
| 无transient物体移除 | 背景出现浮动伪影 |
关键发现¶
- 时空定位模块显著改善了演员与舞台的对齐质量,消除了穿模和抖动
- 深度引导是窄基线场景下舞台重建成功的关键
- 方法成功扩展到网络视频场景(无需额外背景图),利用 Pi3 获取相机姿态
- 支持多种编辑应用:合成镜头制作、演员重定位/插入/删除、姿态操纵
亮点与洞察¶
- 将电视节目的"场景-镜头-帧"层次结构显式建模到重建管线中,这种领域知识的利用提升了系统的实用性
- 组合式3D高斯表示(舞台+多演员独立高斯集合)天然支持场景编辑,设计简洁但功能强大
- 时空定位的多约束联合优化思路(2D对齐+深度一致+3D平滑)可迁移到其他需要将检测结果锚定到3D场景的任务
局限与展望¶
- 依赖 SMPL 参数化模型,对非人体动态物体(如宠物、道具)不适用
- 相机姿态估计的准确性限制了整个管线的上限,特别是在快速运动和模糊严重的场景
- 对遮挡严重的场景,不可见区域的姿态插值可能不够准确
- 可以结合扩散先验恢复不可见区域的外观和几何
相关工作与启发¶
- vs Sitcoms3D: 仅用 NeRF-W 重建背景 + 优化 SMPL 参数,无人体纹理且需相邻镜头有相同演员。ShowMak3r++ 提供完整纹理的演员重建且不依赖多镜头
- vs OmniRe: 依赖 LiDAR 传感器重建户外场景,不适用于镜头切换场景。ShowMak3r++ 仅需单目视频
- vs 前向方法(MonST3R等): 直接生成点云但非照片级真实。ShowMak3r++ 通过3DGS提供可渲染的高质量输出
评分¶
- 新颖性: ⭐⭐⭐⭐ 时空定位和ShotMatcher设计实用且有效,扩展到网络视频是重要工程贡献
- 实验充分度: ⭐⭐⭐ 以定性结果为主,缺少定量对比指标
- 写作质量: ⭐⭐⭐⭐ 结构清晰,pipeline图示详细
- 价值: ⭐⭐⭐⭐ 对视频后制和虚拟制作有实际应用前景
相关论文¶
- [CVPR 2025] 3D Face Reconstruction From Radar Images
- [CVPR 2025] FRESA: Feedforward Reconstruction of Personalized Skinned Avatars from Few Images
- [NeurIPS 2025] In-Context Compositional Learning via Sparse Coding Transformer
- [CVPR 2025] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
- [ICCV 2025] Learning Visual Proxy for Compositional Zero-Shot Learning