Photography Perspective Composition: Towards Aesthetic Perspective Recommendation¶
会议: NeurIPS 2025
arXiv: 2505.20655
代码: 项目页面
领域: 视频理解 / 计算摄影
关键词: 摄影构图, 透视变换, 视频生成, 美学评估, RLHF
一句话总结¶
提出"摄影透视构图"(PPC) 新范式,超越传统裁剪方法,通过 3D 重建构建透视变换数据集 + Image-to-Video 生成推荐视角 + RLHF 对齐人类偏好 + PQA 模型评估透视质量。
研究背景与动机¶
-
领域现状: 摄影构图方法主要基于 2D 裁剪(自由裁剪、主体感知裁剪、比例感知裁剪),已有 GAICD、CPC、FCDB 等数据集。
-
现有痛点: 裁剪方法仅在 2D 图像平面内操作,当场景主体空间排列本身就不佳时,裁剪无法改善。专业摄影师通过调整拍摄视角进行"3D 重构图",但计算摄影领域尚未探索此方向。
-
核心矛盾: 三大挑战:(1) 缺乏透视变换数据集;(2) 构图美学是部分序关系而非全序;(3) 缺乏透视质量的评估标准。
-
本文目标: 从数据集构建、推荐方法到评估模型,全链路解决透视构图推荐问题。
-
切入角度: 利用现有专业摄影图片 + 3D 重建反向生成"从好到差"的透视变换视频,翻转后得到"从差到好"的训练数据。
-
核心 idea: 通过 I2V 模型生成从较差到较优视角的变换视频来推荐构图,而非直接输出单张图片。
方法详解¶
整体框架¶
三大模块:(1) PPC 数据集自动构建 → (2) PPC 视频生成 + RLHF → (3) PQA 透视质量评估模型。
关键设计¶
1. 自动构建透视变换数据集
- 功能: 从专业摄影图片生成带透视变换的训练数据
- 核心思路: 以专业摄影图作为"好构图"输入,通过 ViewCrafter 进行 3D 重建,沿随机相机轨迹生成"从好到差"的视频,翻转后即为"从差到好"的训练数据。使用 PQA 模型自动过滤重建质量差的样本(失真、静止、模糊),替代人工筛选。
- 设计动机: 真实摄影 POV 视频稀缺且难以获取;逆向生成策略巧妙利用了丰富的专业摄影图片资源。
2. 基于 I2V 的透视推荐
- 功能: 给定一个较差视角,生成到美学增强视角的变换视频
- 核心思路: 将问题建模为 Image-to-Video 任务,使用 CogVideoX/HunYuan/WAN 等开源 I2V 模型。无需额外的提示语或相机轨迹。使用视频最后一帧作为推荐视角,通过特征匹配将引导框投射到原始图像上,用户移动时引导框形状变化以实时引导。引入 DPO (Direct Preference Optimization) 对齐人类偏好。
- 设计动机: 视频形式允许前后对比(部分序而非全序),且提供直观的视觉引导。
3. PQA 透视质量评估模型
- 功能: 自动评估透视变换视频的质量
- 核心思路: 基于 Qwen2-VL-2B 的两阶段训练策略。阶段 1: 非配对视频(5K 视频生成 15K 对),学习基本质量判别能力。阶段 2: 配对视频(同一输入三种模型输出的成对比较),学习细粒度构图美学。三个评估维度:视觉质量 (VQ)、运动质量 (MQ)、构图美学 (CA)。使用 BTT (Bradley-Terry with Ties) 损失。
- 设计动机: VLM 需大量数据微调但专家构图数据稀缺,两阶段策略先用容易获取的质量数据打底,再用少量专家标注精修。
损失函数 / 训练策略¶
- PPC 模型: I2V 基础训练 + Flow-DPO 损失对齐人类偏好
- PQA 模型: BTT 损失(Bradley-Terry with Ties),对 VQ/MQ/CA 三维度分别用特殊 token 解耦
- 五级评分制(A-E)用于数据筛选
实验关键数据¶
主实验¶
I2V 模型透视变换生成对比
| 模型 | CMM ↑ | FVD ↓ | VQ ↑ | MQ ↑ | CA ↑ |
|---|---|---|---|---|---|
| CogVideoX 1.5 5B | 0.550 | 303 | 0.707 | 0.731 | 0.720 |
| HunYuan I2V | 0.493 | 264 | 0.722 | 0.750 | 0.707 |
| Wan2.1 14B | 0.599 | 345 | 0.720 | 0.745 | 0.707 |
RLHF 效果
| 设置 | CMM ↑ | FVD ↓ | VQ ↑ | MQ ↑ | CA ↑ |
|---|---|---|---|---|---|
| w/o RLHF | 0.493 | 264.8 | 0.722 | 0.750 | 0.707 |
| w/ RLHF | 0.501 | 270.2 | 0.748 | 0.777 | 0.734 |
消融实验¶
| 实验 | 条件 | CMM ↑ / FVD ↓ |
|---|---|---|
| 数据比例 | 20% / 40% / 80% / 100% | 0.501/460, 0.599/345, 0.524/362, 0.567/359 |
| 旋转角度 | 10° / 20° / 30° / Mix | 0.441/397, 0.559/337, 0.398/444, 0.599/345 |
| PQA 配对数 | 1 / 5 / 10 / 100 | CA acc: 0.588 / 0.789 / 0.810 / 0.810 |
| PQA 训练步骤 | 单阶段 / 两阶段 | CA acc: 0.491 / 0.810 |
关键发现¶
- 40% 数据量即可达到最优性能,过多数据反而不提升
- 旋转角度 30° 时性能显著下降(原始与变换视角差异过大)
- 混合角度数据表现最优,说明多样性比精确控制更重要
- PQA 的两阶段训练至关重要(单阶段 CA 准确率仅 ~49%,等于随机)
- PPC 模型具有构图一致性:不同差视角输入同一场景,输出趋向一致的美学增强视角
亮点与洞察¶
- 开创"透视构图"新范式,从 2D 裁剪升维到 3D 视角调整
- 数据构建思路巧妙:反向生成+自动过滤,无需真实摄影 POV 视频
- 视频推荐而非图片推荐——优雅处理部分序问题,同时提供教学价值
- PQA 的两阶段训练策略解决了专家数据稀缺问题
局限与展望¶
- 受限于 3D 重建模型质量,大角度变换时生成质量下降明显
- 当前仅支持短角度透视变换,大范围视角变化效果不佳
- PQA 模型基于 2B 参数规模的 VLM,评估能力可能有限
- 引导框的简单单应变换可能在复杂场景中不够精确
相关工作与启发¶
- 首次将 3D 场景重建与摄影构图审美结合
- ViewCrafter 的单图 3D 重建能力是核心技术依赖
- 启发:可扩展到视频摄影构图、无人机航拍路径规划等
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 开创性提出透视构图范式,数据集构建思路新颖
- 实验充分度: ⭐⭐⭐⭐ 单主体/多主体/风景/无人机多场景验证,消融充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图示丰富
- 价值: ⭐⭐⭐⭐ 对计算摄影领域有开创意义,但实用性受 3D 重建质量限制
相关论文¶
- [ICML 2025] How Far is Video Generation from World Model: A Physical Law Perspective
- [ICLR 2026] Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective
- [CVPR 2026] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
- [NeurIPS 2025] Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
- [NeurIPS 2025] VORTA: Efficient Video Diffusion via Routing Sparse Attention