跳转至

Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

会议: ICLR 2026
arXiv: 2602.11440
代码: 待确认
领域: 3D视觉 / 视觉生成
关键词: 物体操纵, 扩散模型, 几何一致性, 相机位姿控制, 图像编辑

一句话总结

提出Ctrl&Shift,一个端到端扩散框架,通过将物体操纵分解为物体移除+参考引导修复,并注入相对相机位姿控制,首次在不依赖显式3D重建的情况下实现几何一致的细粒度物体操纵。

研究背景与动机

  1. 领域现状:物体级操纵(重定位、旋转物体并保持场景真实感)是影视后期、AR和创意编辑的基础操作。主流方法分为两大派:几何方法(NeRF/3DGS重建后操作)和扩散方法(文本/轨迹条件编辑)。
  2. 现有痛点
  3. 几何方法(NeRF/3DGS)提供精确控制但需要显式3D重建,per-scene优化成本高,泛化性差
  4. 扩散方法(DragAnything/VACE等)泛化性好但缺乏细粒度几何控制,无法精确指定物体的位姿变换
  5. 没有方法能同时实现:背景保持、几何一致的视角变换、用户可控变换这三个目标
  6. 核心矛盾:几何精度与泛化能力之间存在根本性的trade-off
  7. 本文要解决什么:在不做显式3D重建的情况下,实现几何一致、细粒度可控的物体操纵
  8. 切入角度:不把内容提升到3D再编辑,而是把精确视角控制直接注入2D扩散过程
  9. 核心idea一句话:将物体操纵分解为"移除+参考修复+相机位姿控制"三个子任务,通过多任务多阶段训练在统一扩散框架内学习

方法详解

整体框架

输入:源图/视频帧 + 参考物体图像 + 源掩码 + 目标掩码 + 相对相机位姿描述符。输出:物体被移动/旋转到目标位置/视角的目标帧。架构基于ControlNet-style DiT,通过控制分支注入条件信号,相机位姿通过cross-attention注入。

关键设计

  1. 任务分解与多任务训练
  2. 做什么:将物体操纵分解为三个可分离的任务联合训练
  3. 核心思路:
    • 主任务:完整的物体操纵——移除源位置物体,在目标位置以目标视角重绘
    • 辅助任务1(物体移除):参考图设为白图、目标掩码全零、位姿设到画面外,学习干净去除物体
    • 辅助任务2(参考修复+相机控制):源掩码全零、输入为背景帧,学习在指定位姿下合成参考物体
  4. 任务权重比为8:1:1,每个条件信号有明确的功能角色
  5. 设计动机:5个条件信号(源帧、参考图、源掩码、目标掩码、相机位姿)高度纠缠,多任务策略显式分离各信号的贡献

  6. 相对相机位姿编码

  7. 做什么:编码源视角到目标视角的几何变换
  8. 核心思路:使用 look-at 相机模型,每个视角参数化为 \((yaw, pitch, d, r_x, r_y)\)。计算相对旋转矩阵的axis-angle表示 \(\text{aa}(\mathbf{R}_{rel})\)、相对平移 \(\mathbf{t}_{rel}\) 和NDC偏移 \((\Delta r_x, \Delta r_y)\),拼成8维描述符 \(\mathbf{f} \in \mathbb{R}^8\)
  9. 经Fourier位置编码 + MLP映射为8个token(\(d=4096\)),通过cross-attention注入DiT
  10. 设计动机:相对位姿比绝对位姿更直观(以输入帧为基准做类似拖拽的调整),避免了定义标准绝对位姿的困难

  11. 掩码编码策略

  12. 做什么:将二值掩码对齐到VAE潜空间
  13. 核心思路:不用VAE编码掩码(避免二值语义被当作外观处理),而用space-to-depth(pixel unshuffle)操作直接降分辨率对齐VAE stride
  14. 推理时目标掩码通过源掩码的bbox缩放+平移近似获得

  15. 两阶段训练

  16. Stage I(合成数据):在~2M张合成图像对上预训练,白色背景+随机相机位姿,学习物体先验和位姿表示,联合更新主干和控制分支
  17. Stage II(真实数据):在100K高质量真实图像/视频对上微调,冻结主干只更新控制分支,聚焦背景保持和真实感

  18. 数据构建流水线

  19. 做什么:从真实图像自动构建带位姿标注的训练对
  20. 核心思路:Hunyuan3D-2重建物体mesh → 可微渲染估计源相机位姿(IoU≥0.90过滤)→ 采样目标位姿并渲染 → MiniMax-Remover获取干净背景 → 物体粘贴网络做和谐化合成

损失函数

采用flow-matching训练,线性路径 \(\mathbf{z}_t = (1-t)\mathbf{z}_0 + t\boldsymbol{\varepsilon}\),速度匹配损失 \(\|\mathbf{v}_\theta(\mathbf{z}_t, \mathbf{c}, t) - \mathbf{v}^*(\mathbf{z}_t, t)\|_2^2\)

实验关键数据

主实验

ObjectMover-A零样本评测:

方法 PSNR↑ DINO↑ CLIP↑ DreamSim↓
ObjectMover 25.27 85.07 93.16 0.142
Ctrl&Shift 28.69 88.07 93.58 0.075

GeoEditBench(自建基准,几何感知编辑评测):

方法 PSNR↑ DINO↑ Pose MAPE↓ Obj IoU↑
VACE 24.32 75.38 30.56% 0.72
Nano-Banana 26.38 78.05 24.36% 0.78
Ctrl&Shift 28.71 85.23 17.70% 0.83

消融实验

  • 去掉Stage 1:Pose MAPE从17.70%升至32.50%,几何理解严重受损
  • 去掉Stage 2:PSNR从28.71降至24.83,背景保持和视觉质量下降
  • 去掉辅助任务1:CLIP-Score降至86.32,语义一致性受损
  • 去掉辅助任务2:Obj IoU降至0.65,Pose MAPE升至28.60%,物体级精度最受影响

亮点

  • 概念上的关键突破:不需要3D重建即可实现几何一致物体操纵
  • 多任务分解思路巧妙,让模型从各任务中学习到解纠缠的信号
  • 数据构建流水线可规模化,支持真实世界图像和视频
  • GeoEditBench提供了几何感知编辑的系统性评测

局限性 / 可改进方向

  • 推理时目标掩码的近似(bbox缩放+平移)可能在极端变换下不准确
  • 基于Wan-1.3B backbone,模型规模不大,复杂场景可能表现受限
  • 目前只支持单物体操纵,多物体协同编辑未探索
  • 数据构建依赖Hunyuan3D-2和物体粘贴模型,引入这些模型的误差
  • 视频操纵能力虽展示但定量评测偏少

与相关工作的对比

  • vs DragAnything:基于轨迹控制的扩散方法,泛化性差且缺乏位姿控制
  • vs VACE:背景保持好但实际是平移整个画面而非真正操纵物体
  • vs Nano-Banana/Qwen-Image-Edit:生成质量好但文本指令驱动的相机位姿控制不精确
  • vs 3DiT/GeoDiffuser:依赖3D重建或几何条件,泛化性受限
  • vs ObjectMover:视频先验方法,本文在PSNR上+3.42,DreamSim减半

启发与关联

  • "不做3D重建但注入3D几何控制"的思路可推广到其他编辑任务
  • 多任务解纠缠训练策略值得在多条件生成任务中借鉴
  • 相对位姿编码比绝对位姿更适合交互式编辑场景

评分

  • 新颖性: ⭐⭐⭐⭐ (任务分解+位姿注入的概念创新)
  • 实验充分度: ⭐⭐⭐⭐ (多基准+消融+自建benchmark)
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐ (首次统一几何精度和扩散泛化)