OminiControl: Minimal and Universal Control for Diffusion Transformer¶

元信息¶

会议: ICCV 2025
arXiv: 2411.15098
代码: GitHub
领域: 扩散模型 · 可控生成
关键词: DiT, 图像条件控制, 统一序列处理, 动态位置编码, Subjects200K

一句话总结¶

提出OminiControl，仅需0.1%额外参数即可在DiT架构上实现空间对齐和非对齐两类图像控制任务的统一处理，核心创新包括统一序列处理、动态位置编码和注意力偏置控制机制。

研究背景与动机¶

现有图像条件控制方法存在三大问题：

参数开销大：如ControlNet需复制整个网络，IP-Adapter需额外编码器

任务偏向性：空间对齐控制（边缘、深度引导）和非对齐控制（风格迁移、主题驱动）往往需要不同架构

架构局限：大多为UNet设计，直接迁移到DiT（Diffusion Transformer）效果不佳

核心问题：能否在DiT架构上用一个统一、极简的框架同时处理所有图像控制任务？

方法详解¶

整体框架¶

OminiControl基于FLUX.1的DiT架构，通过三个级别的创新实现极简通用控制。

1. 极简架构设计（仅0.1%额外参数）¶

参数复用策略：复用DiT自身的VAE编码器处理条件图像，将其投射到与噪声图像相同的潜空间；复用DiT的transformer块处理条件token，仅添加轻量级LoRA微调。

与ControlNet（复制整个网络）、IP-Adapter（引入CLIP编码器+交叉注意力）相比，参数开销极小。

2. 统一序列处理¶

将条件token直接拼接到图像token序列中：

\[\text{MMA}([X; C_T; C_I]) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right) V\]

其中\([X; C_T; C_I]\)是噪声图像token、文本token和条件图像token的拼接。

关键优势：相比传统特征加法\(h_X \leftarrow h_X + h_{C_I}\)，统一序列处理允许多模态注意力自动发现token间的合适关系——无论是空间对应还是语义对应。实验证明训练loss一致低于特征加法方案。

3. 动态位置编码¶

基于RoPE（旋转位置编码）的自适应策略：

\[ (i,j)_{C_I} = \begin{cases} (i,j)_X & \text{空间对齐任务} \\ (i,j) + \Delta & \text{非对齐任务} \end{cases} \]

空间对齐任务：条件token与图像token共享位置索引，促进直接空间对应
非对齐任务：条件token位置偏移\(\Delta\)（如\((0,32)\)），避免空间重叠，训练收敛加速且性能提升

4. 注意力偏置灵活控制¶

引入偏置矩阵\(B(\gamma)\)控制条件强度：

\[\text{MMA}([X; C_T; C_I]) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}} + B(\gamma)\right) V\]

\(B(\gamma)\)的设计使\(\gamma=0\)时移除条件影响、\(\gamma>1\)时增强影响，用户可在推理时动态调节。

Subjects200K数据集¶

为解决主题驱动生成的数据瓶颈，利用FLUX.1自身能力合成了超过200K的身份一致图像对。流程：GPT-4o生成多样化主题描述 → 重组为结构化提示 → DiT生成成对图像。

实验¶

主题驱动生成对比¶

方法	DINO↑	CLIP-I↑	CLIP-T↑
IP-Adapter	0.631	0.772	0.289
InstantID	0.586	0.738	0.268
OminiControl	0.720	0.812	0.295

空间控制对比（Canny引导）¶

方法	SSIM↑	RMSE↓	额外参数
ControlNet	0.491	0.357	~1.4B
T2I-Adapter	0.425	0.412	~100M
OminiControl	0.530	0.325	~14M

OminiControl以仅1%的ControlNet参数量实现了更优性能。

关键发现¶

统一序列处理的训练loss始终低于特征加法，验证了"让注意力自主发现关系"的优势
非对齐任务中，位置偏移带来的收敛加速效果显著（约2x）
注意力偏置机制在0-2的范围内平滑控制条件强度，无需重新训练

亮点与洞察¶

极致简洁：0.1%额外参数实现全面控制，体现了"less is more"的设计哲学
统一处理：打破了空间对齐与非对齐控制的人为边界，验证了注意力机制的自适应能力
实用贡献：Subjects200K数据集和开源LoRA权重为社区提供了直接可用的资源
动态位置编码的洞察：空间对齐任务需要共享位置、非对齐任务需要独立位置——简单但关键

局限性¶

对复杂组合控制（多条件同时作用）的能力未深入探讨
Subjects200K的合成质量受限于基础模型能力
注意力偏置机制增加推理时的超参数调节负担

评分¶

新颖性：★★★★☆ — 统一序列处理和动态位置编码的组合简洁创新
技术深度：★★★★☆ — 实验全面，洞察有深度
实用性：★★★★★ — 即插即用，社区价值高