Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation¶

会议: ICLR 2026
arXiv: 2602.11440
代码: 待确认
领域: 3D视觉 / 视觉生成
关键词: 物体操纵, 扩散模型, 几何一致性, 相机位姿控制, 图像编辑

一句话总结¶

提出Ctrl&Shift，一个端到端扩散框架，通过将物体操纵分解为物体移除+参考引导修复，并注入相对相机位姿控制，首次在不依赖显式3D重建的情况下实现几何一致的细粒度物体操纵。

研究背景与动机¶

领域现状：物体级操纵（重定位、旋转物体并保持场景真实感）是影视后期、AR和创意编辑的基础操作。主流方法分为两大派：几何方法（NeRF/3DGS重建后操作）和扩散方法（文本/轨迹条件编辑）。
现有痛点：
几何方法（NeRF/3DGS）提供精确控制但需要显式3D重建，per-scene优化成本高，泛化性差
扩散方法（DragAnything/VACE等）泛化性好但缺乏细粒度几何控制，无法精确指定物体的位姿变换
没有方法能同时实现：背景保持、几何一致的视角变换、用户可控变换这三个目标
核心矛盾：几何精度与泛化能力之间存在根本性的trade-off
本文要解决什么：在不做显式3D重建的情况下，实现几何一致、细粒度可控的物体操纵
切入角度：不把内容提升到3D再编辑，而是把精确视角控制直接注入2D扩散过程
核心idea一句话：将物体操纵分解为"移除+参考修复+相机位姿控制"三个子任务，通过多任务多阶段训练在统一扩散框架内学习

方法详解¶

整体框架¶

输入：源图/视频帧 + 参考物体图像 + 源掩码 + 目标掩码 + 相对相机位姿描述符。输出：物体被移动/旋转到目标位置/视角的目标帧。架构基于ControlNet-style DiT，通过控制分支注入条件信号，相机位姿通过cross-attention注入。

关键设计¶

任务分解与多任务训练
做什么：将物体操纵分解为三个可分离的任务联合训练
核心思路：
- 主任务：完整的物体操纵——移除源位置物体，在目标位置以目标视角重绘
- 辅助任务1（物体移除）：参考图设为白图、目标掩码全零、位姿设到画面外，学习干净去除物体
- 辅助任务2（参考修复+相机控制）：源掩码全零、输入为背景帧，学习在指定位姿下合成参考物体
任务权重比为8:1:1，每个条件信号有明确的功能角色
设计动机：5个条件信号（源帧、参考图、源掩码、目标掩码、相机位姿）高度纠缠，多任务策略显式分离各信号的贡献
相对相机位姿编码
做什么：编码源视角到目标视角的几何变换
核心思路：使用 look-at 相机模型，每个视角参数化为 \((yaw, pitch, d, r_x, r_y)\)。计算相对旋转矩阵的axis-angle表示 \(\text{aa}(\mathbf{R}_{rel})\)、相对平移 \(\mathbf{t}_{rel}\) 和NDC偏移 \((\Delta r_x, \Delta r_y)\)，拼成8维描述符 \(\mathbf{f} \in \mathbb{R}^8\)
经Fourier位置编码 + MLP映射为8个token（\(d=4096\)），通过cross-attention注入DiT
设计动机：相对位姿比绝对位姿更直观（以输入帧为基准做类似拖拽的调整），避免了定义标准绝对位姿的困难
掩码编码策略
做什么：将二值掩码对齐到VAE潜空间
核心思路：不用VAE编码掩码（避免二值语义被当作外观处理），而用space-to-depth（pixel unshuffle）操作直接降分辨率对齐VAE stride
推理时目标掩码通过源掩码的bbox缩放+平移近似获得
两阶段训练
Stage I（合成数据）：在~2M张合成图像对上预训练，白色背景+随机相机位姿，学习物体先验和位姿表示，联合更新主干和控制分支
Stage II（真实数据）：在100K高质量真实图像/视频对上微调，冻结主干只更新控制分支，聚焦背景保持和真实感
数据构建流水线
做什么：从真实图像自动构建带位姿标注的训练对
核心思路：Hunyuan3D-2重建物体mesh → 可微渲染估计源相机位姿（IoU≥0.90过滤）→ 采样目标位姿并渲染 → MiniMax-Remover获取干净背景 → 物体粘贴网络做和谐化合成

损失函数¶

采用flow-matching训练，线性路径 \(\mathbf{z}_t = (1-t)\mathbf{z}_0 + t\boldsymbol{\varepsilon}\)，速度匹配损失 \(\|\mathbf{v}_\theta(\mathbf{z}_t, \mathbf{c}, t) - \mathbf{v}^*(\mathbf{z}_t, t)\|_2^2\)。

实验关键数据¶

主实验¶

ObjectMover-A零样本评测：

方法	PSNR↑	DINO↑	CLIP↑	DreamSim↓
ObjectMover	25.27	85.07	93.16	0.142
Ctrl&Shift	28.69	88.07	93.58	0.075

GeoEditBench（自建基准，几何感知编辑评测）：

方法	PSNR↑	DINO↑	Pose MAPE↓	Obj IoU↑
VACE	24.32	75.38	30.56%	0.72
Nano-Banana	26.38	78.05	24.36%	0.78
Ctrl&Shift	28.71	85.23	17.70%	0.83

消融实验¶

去掉Stage 1：Pose MAPE从17.70%升至32.50%，几何理解严重受损
去掉Stage 2：PSNR从28.71降至24.83，背景保持和视觉质量下降
去掉辅助任务1：CLIP-Score降至86.32，语义一致性受损
去掉辅助任务2：Obj IoU降至0.65，Pose MAPE升至28.60%，物体级精度最受影响

亮点¶

概念上的关键突破：不需要3D重建即可实现几何一致物体操纵
多任务分解思路巧妙，让模型从各任务中学习到解纠缠的信号
数据构建流水线可规模化，支持真实世界图像和视频
GeoEditBench提供了几何感知编辑的系统性评测

局限性 / 可改进方向¶

推理时目标掩码的近似（bbox缩放+平移）可能在极端变换下不准确
基于Wan-1.3B backbone，模型规模不大，复杂场景可能表现受限
目前只支持单物体操纵，多物体协同编辑未探索
数据构建依赖Hunyuan3D-2和物体粘贴模型，引入这些模型的误差
视频操纵能力虽展示但定量评测偏少

与相关工作的对比¶

vs DragAnything：基于轨迹控制的扩散方法，泛化性差且缺乏位姿控制
vs VACE：背景保持好但实际是平移整个画面而非真正操纵物体
vs Nano-Banana/Qwen-Image-Edit：生成质量好但文本指令驱动的相机位姿控制不精确
vs 3DiT/GeoDiffuser：依赖3D重建或几何条件，泛化性受限
vs ObjectMover：视频先验方法，本文在PSNR上+3.42，DreamSim减半

启发与关联¶

"不做3D重建但注入3D几何控制"的思路可推广到其他编辑任务
多任务解纠缠训练策略值得在多条件生成任务中借鉴
相对位姿编码比绝对位姿更适合交互式编辑场景

评分¶

新颖性: ⭐⭐⭐⭐ (任务分解+位姿注入的概念创新)
实验充分度: ⭐⭐⭐⭐ (多基准+消融+自建benchmark)
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐ (首次统一几何精度和扩散泛化)