跳转至

Photography Perspective Composition: Towards Aesthetic Perspective Recommendation

会议: NeurIPS 2025
arXiv: 2505.20655
代码: 项目页面
领域: 视频理解 / 计算摄影
关键词: 摄影构图, 透视变换, 视频生成, 美学评估, RLHF

一句话总结

提出"摄影透视构图"(PPC) 新范式,超越传统裁剪方法,通过 3D 重建构建透视变换数据集 + Image-to-Video 生成推荐视角 + RLHF 对齐人类偏好 + PQA 模型评估透视质量。

研究背景与动机

  1. 领域现状: 摄影构图方法主要基于 2D 裁剪(自由裁剪、主体感知裁剪、比例感知裁剪),已有 GAICD、CPC、FCDB 等数据集。

  2. 现有痛点: 裁剪方法仅在 2D 图像平面内操作,当场景主体空间排列本身就不佳时,裁剪无法改善。专业摄影师通过调整拍摄视角进行"3D 重构图",但计算摄影领域尚未探索此方向。

  3. 核心矛盾: 三大挑战:(1) 缺乏透视变换数据集;(2) 构图美学是部分序关系而非全序;(3) 缺乏透视质量的评估标准。

  4. 本文目标: 从数据集构建、推荐方法到评估模型,全链路解决透视构图推荐问题。

  5. 切入角度: 利用现有专业摄影图片 + 3D 重建反向生成"从好到差"的透视变换视频,翻转后得到"从差到好"的训练数据。

  6. 核心 idea: 通过 I2V 模型生成从较差到较优视角的变换视频来推荐构图,而非直接输出单张图片。

方法详解

整体框架

三大模块:(1) PPC 数据集自动构建 → (2) PPC 视频生成 + RLHF → (3) PQA 透视质量评估模型。

关键设计

1. 自动构建透视变换数据集

  • 功能: 从专业摄影图片生成带透视变换的训练数据
  • 核心思路: 以专业摄影图作为"好构图"输入,通过 ViewCrafter 进行 3D 重建,沿随机相机轨迹生成"从好到差"的视频,翻转后即为"从差到好"的训练数据。使用 PQA 模型自动过滤重建质量差的样本(失真、静止、模糊),替代人工筛选。
  • 设计动机: 真实摄影 POV 视频稀缺且难以获取;逆向生成策略巧妙利用了丰富的专业摄影图片资源。

2. 基于 I2V 的透视推荐

  • 功能: 给定一个较差视角,生成到美学增强视角的变换视频
  • 核心思路: 将问题建模为 Image-to-Video 任务,使用 CogVideoX/HunYuan/WAN 等开源 I2V 模型。无需额外的提示语或相机轨迹。使用视频最后一帧作为推荐视角,通过特征匹配将引导框投射到原始图像上,用户移动时引导框形状变化以实时引导。引入 DPO (Direct Preference Optimization) 对齐人类偏好。
  • 设计动机: 视频形式允许前后对比(部分序而非全序),且提供直观的视觉引导。

3. PQA 透视质量评估模型

  • 功能: 自动评估透视变换视频的质量
  • 核心思路: 基于 Qwen2-VL-2B 的两阶段训练策略。阶段 1: 非配对视频(5K 视频生成 15K 对),学习基本质量判别能力。阶段 2: 配对视频(同一输入三种模型输出的成对比较),学习细粒度构图美学。三个评估维度:视觉质量 (VQ)、运动质量 (MQ)、构图美学 (CA)。使用 BTT (Bradley-Terry with Ties) 损失。
  • 设计动机: VLM 需大量数据微调但专家构图数据稀缺,两阶段策略先用容易获取的质量数据打底,再用少量专家标注精修。

损失函数 / 训练策略

  • PPC 模型: I2V 基础训练 + Flow-DPO 损失对齐人类偏好
  • PQA 模型: BTT 损失(Bradley-Terry with Ties),对 VQ/MQ/CA 三维度分别用特殊 token 解耦
  • 五级评分制(A-E)用于数据筛选

实验关键数据

主实验

I2V 模型透视变换生成对比

模型 CMM ↑ FVD ↓ VQ ↑ MQ ↑ CA ↑
CogVideoX 1.5 5B 0.550 303 0.707 0.731 0.720
HunYuan I2V 0.493 264 0.722 0.750 0.707
Wan2.1 14B 0.599 345 0.720 0.745 0.707

RLHF 效果

设置 CMM ↑ FVD ↓ VQ ↑ MQ ↑ CA ↑
w/o RLHF 0.493 264.8 0.722 0.750 0.707
w/ RLHF 0.501 270.2 0.748 0.777 0.734

消融实验

实验 条件 CMM ↑ / FVD ↓
数据比例 20% / 40% / 80% / 100% 0.501/460, 0.599/345, 0.524/362, 0.567/359
旋转角度 10° / 20° / 30° / Mix 0.441/397, 0.559/337, 0.398/444, 0.599/345
PQA 配对数 1 / 5 / 10 / 100 CA acc: 0.588 / 0.789 / 0.810 / 0.810
PQA 训练步骤 单阶段 / 两阶段 CA acc: 0.491 / 0.810

关键发现

  • 40% 数据量即可达到最优性能,过多数据反而不提升
  • 旋转角度 30° 时性能显著下降(原始与变换视角差异过大)
  • 混合角度数据表现最优,说明多样性比精确控制更重要
  • PQA 的两阶段训练至关重要(单阶段 CA 准确率仅 ~49%,等于随机)
  • PPC 模型具有构图一致性:不同差视角输入同一场景,输出趋向一致的美学增强视角

亮点与洞察

  • 开创"透视构图"新范式,从 2D 裁剪升维到 3D 视角调整
  • 数据构建思路巧妙:反向生成+自动过滤,无需真实摄影 POV 视频
  • 视频推荐而非图片推荐——优雅处理部分序问题,同时提供教学价值
  • PQA 的两阶段训练策略解决了专家数据稀缺问题

局限与展望

  • 受限于 3D 重建模型质量,大角度变换时生成质量下降明显
  • 当前仅支持短角度透视变换,大范围视角变化效果不佳
  • PQA 模型基于 2B 参数规模的 VLM,评估能力可能有限
  • 引导框的简单单应变换可能在复杂场景中不够精确

相关工作与启发

  • 首次将 3D 场景重建与摄影构图审美结合
  • ViewCrafter 的单图 3D 重建能力是核心技术依赖
  • 启发:可扩展到视频摄影构图、无人机航拍路径规划等

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 开创性提出透视构图范式,数据集构建思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 单主体/多主体/风景/无人机多场景验证,消融充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示丰富
  • 价值: ⭐⭐⭐⭐ 对计算摄影领域有开创意义,但实用性受 3D 重建质量限制

相关论文