跳转至

OminiControl: Minimal and Universal Control for Diffusion Transformer

元信息

  • 会议: ICCV 2025
  • arXiv: 2411.15098
  • 代码: GitHub
  • 领域: 扩散模型 · 可控生成
  • 关键词: DiT, 图像条件控制, 统一序列处理, 动态位置编码, Subjects200K

一句话总结

提出OminiControl,仅需0.1%额外参数即可在DiT架构上实现空间对齐和非对齐两类图像控制任务的统一处理,核心创新包括统一序列处理、动态位置编码和注意力偏置控制机制。

研究背景与动机

现有图像条件控制方法存在三大问题:

参数开销大:如ControlNet需复制整个网络,IP-Adapter需额外编码器

任务偏向性:空间对齐控制(边缘、深度引导)和非对齐控制(风格迁移、主题驱动)往往需要不同架构

架构局限:大多为UNet设计,直接迁移到DiT(Diffusion Transformer)效果不佳

核心问题:能否在DiT架构上用一个统一、极简的框架同时处理所有图像控制任务?

方法详解

整体框架

OminiControl基于FLUX.1的DiT架构,通过三个级别的创新实现极简通用控制。

1. 极简架构设计(仅0.1%额外参数)

参数复用策略:复用DiT自身的VAE编码器处理条件图像,将其投射到与噪声图像相同的潜空间;复用DiT的transformer块处理条件token,仅添加轻量级LoRA微调。

与ControlNet(复制整个网络)、IP-Adapter(引入CLIP编码器+交叉注意力)相比,参数开销极小。

2. 统一序列处理

将条件token直接拼接到图像token序列中:

\[\text{MMA}([X; C_T; C_I]) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) V\]

其中\([X; C_T; C_I]\)是噪声图像token、文本token和条件图像token的拼接。

关键优势:相比传统特征加法\(h_X \leftarrow h_X + h_{C_I}\),统一序列处理允许多模态注意力自动发现token间的合适关系——无论是空间对应还是语义对应。实验证明训练loss一致低于特征加法方案。

3. 动态位置编码

基于RoPE(旋转位置编码)的自适应策略:

\[ (i,j)_{C_I} = \begin{cases} (i,j)_X & \text{空间对齐任务} \\ (i,j) + \Delta & \text{非对齐任务} \end{cases} \]
  • 空间对齐任务:条件token与图像token共享位置索引,促进直接空间对应
  • 非对齐任务:条件token位置偏移\(\Delta\)(如\((0,32)\)),避免空间重叠,训练收敛加速且性能提升

4. 注意力偏置灵活控制

引入偏置矩阵\(B(\gamma)\)控制条件强度:

\[\text{MMA}([X; C_T; C_I]) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}} + B(\gamma)\right) V\]

\(B(\gamma)\)的设计使\(\gamma=0\)时移除条件影响、\(\gamma>1\)时增强影响,用户可在推理时动态调节。

Subjects200K数据集

为解决主题驱动生成的数据瓶颈,利用FLUX.1自身能力合成了超过200K的身份一致图像对。流程:GPT-4o生成多样化主题描述 → 重组为结构化提示 → DiT生成成对图像。

实验

主题驱动生成对比

方法 DINO↑ CLIP-I↑ CLIP-T↑
IP-Adapter 0.631 0.772 0.289
InstantID 0.586 0.738 0.268
OminiControl 0.720 0.812 0.295

空间控制对比(Canny引导)

方法 SSIM↑ RMSE↓ 额外参数
ControlNet 0.491 0.357 ~1.4B
T2I-Adapter 0.425 0.412 ~100M
OminiControl 0.530 0.325 ~14M

OminiControl以仅1%的ControlNet参数量实现了更优性能。

关键发现

  1. 统一序列处理的训练loss始终低于特征加法,验证了"让注意力自主发现关系"的优势
  2. 非对齐任务中,位置偏移带来的收敛加速效果显著(约2x)
  3. 注意力偏置机制在0-2的范围内平滑控制条件强度,无需重新训练

亮点与洞察

  1. 极致简洁:0.1%额外参数实现全面控制,体现了"less is more"的设计哲学
  2. 统一处理:打破了空间对齐与非对齐控制的人为边界,验证了注意力机制的自适应能力
  3. 实用贡献:Subjects200K数据集和开源LoRA权重为社区提供了直接可用的资源
  4. 动态位置编码的洞察:空间对齐任务需要共享位置、非对齐任务需要独立位置——简单但关键

局限性

  • 对复杂组合控制(多条件同时作用)的能力未深入探讨
  • Subjects200K的合成质量受限于基础模型能力
  • 注意力偏置机制增加推理时的超参数调节负担

相关工作

  • 控制方法: ControlNet, T2I-Adapter, IP-Adapter, UniControl
  • DiT架构: FLUX.1, Stable Diffusion 3, PixArt
  • 数据合成: 利用生成模型自身创建训练数据的自举策略

评分

  • 新颖性:★★★★☆ — 统一序列处理和动态位置编码的组合简洁创新
  • 技术深度:★★★★☆ — 实验全面,洞察有深度
  • 实用性:★★★★★ — 即插即用,社区价值高

相关论文