AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation¶

会议: ECCV 2024
arXiv: 2406.18958
代码: https://any-control.github.io (有)
领域: 多模态VLM
关键词: 可控图像生成, 多条件融合, Text-to-Image, ControlNet, 注意力机制

一句话总结¶

AnyControl提出Multi-Control Encoder，通过交替执行多控制融合块和多控制对齐块，从任意组合的多种空间控制信号中提取统一的多模态embedding，实现高质量、语义对齐的多条件可控图像生成。

研究背景与动机¶

领域现状：T2I扩散模型（Stable Diffusion）已能生成高质量图像，ControlNet等方法通过引入额外的空间条件（深度图、边缘图、分割图、姿态等）实现精细控制。多条件控制是实际应用中的刚需。
现有痛点：(1) 输入灵活性不足：现有方法如Uni-ControlNet用固定长度输入通道，无法处理自由组合的条件；(2) 空间兼容性差：多条件通常通过手工加权求和组合，遮挡区域处理不当导致融合伪影；(3) 文本兼容性弱：空间条件常主导生成过程，文本语义被忽略。
核心矛盾：多个空间条件来自不同模态、数量可变，且彼此间存在复杂的空间关系（如遮挡），同时还需与文本语义保持一致。简单的加权求和或固定通道设计无法全面解决这些问题。
本文要解决什么？ 同时解决输入灵活性（任意数量和类型的条件组合）、空间兼容性（条件间复杂关系处理）和文本兼容性（保持语义对齐）三大挑战。
切入角度：受Q-Former的启发，用可学习的query token作为桥梁，交替在空间条件和文本条件之间传递信息，实现多模态信息的统一理解。
核心idea一句话：用交替的交叉注意力（融合空间条件）和自注意力（对齐文本语义）块，通过query token提取统一的多控制表示。

方法详解¶

整体框架¶

AnyControl锁定预训练SD模型，设计Multi-Control Encoder提取多控制embedding注入生成过程。先从CLIP视觉编码器提取各空间条件的visual token，从CLIP文本编码器提取textual token，加上一组可学习的query token，通过交替的Multi-Control Fusion Block和Multi-Control Alignment Block处理，最终query token携带统一的多模态信息指导生成。

关键设计¶

Multi-Control Fusion Block:
- 做什么：从多个空间条件中聚合兼容信息到query token
- 核心思路：使用交叉注意力，query token作为Q，所有条件的visual token拼接后作为K和V。\(\mathcal{Q}_j = CrossAttention(\mathcal{Q}_j, [\mathcal{V}_{1,j}+P, \mathcal{V}_{2,j}+P, ..., \mathcal{V}_{n,j}+P])\)，其中P是共享的可学习位置编码
- 设计动机：通过注意力机制自动学习条件间的组合权重，替代手工加权求和；共享位置编码帮助对齐不同条件的空间位置
Multi-Control Alignment Block:
- 做什么：保证空间条件信息与文本语义的兼容性
- 核心思路：将query token和textual token拼接后进行自注意力。\([\mathcal{Q}_{j+1}, \mathcal{T}_{j+1}] = SelfAttention([\mathcal{Q}_j, \mathcal{T}_j])\)。额外在用户文本末尾添加textual task prompt解决模态差异
- 设计动机：文本prompt作为全局控制信号可以指示空间条件间的关系优先级（如遮挡时谁在前）。自注意力使query token和textual token双向交换信息
交替多层级融合:
- 做什么：多轮交替融合和对齐，每轮使用CLIP视觉编码器不同层级的visual token
- 核心思路：浅层visual token提供底层纹理控制（如边缘图），深层提供高层语义控制（如分割图），多层级token匹配不同条件的控制粒度
- 设计动机：不同控制信号的控制层级不同，多层级特征确保每种条件都能在合适的抽象层次被利用

损失函数 / 训练策略¶

标准扩散去噪损失。训练数据：MultiGen数据集（2.8M图像），加上0.44M自合成的未对齐数据（将图像分为前景/背景分别提取条件）。随机选择2个条件训练，以0.05概率drop所有条件启用classifier-free guidance。

实验关键数据¶

主实验（COCO-UM未对齐多控制benchmark）¶

方法	FID↓	CLIP↑	Depth RMSE↓	Seg mPA↑	Pose mAP↑
Multi-ControlNet	55.95	24.80	17.81	42.78	15.69
Uni-ControlNet	55.28	24.48	20.57	41.10	18.40
Cocktail	47.39	25.33	-	31.74	12.16
AnyControl	44.28	26.41	18.00	43.34	18.81

消融实验¶

配置	FID↓	CLIP↑	说明
w/o Alignment Block	48.5	25.1	空间与文本不兼容
w/o 未对齐数据	47.2	25.8	遮挡处理能力下降
w/o 多层级visual token	46.8	25.9	精细控制能力减弱
Full AnyControl	44.28	26.41	完整模型

关键发现¶

注意力机制比MoE设计更适合多条件融合：AnyControl在所有指标上优于基于MoE加权求和的Multi-ControlNet
未对齐训练数据至关重要：只用对齐数据训练的模型无法处理实际应用中条件不对齐（来自不同图像）的情况
AnyControl展现出对空间关系的推理能力：不仅能处理条件间遮挡，还能推断生成物体与环境的合理交互关系（如高度不同时自动生成合理的放置平面）

亮点与洞察¶

Q-Former思想的创新迁移：将视觉-语言预训练中的桥梁设计迁移到多控制图像生成中，用query token统一异质控制信号
COCO-UM benchmark：构建了首个未对齐多条件评估基准，填补了现有评估只考虑完美对齐条件的空白
兼容风格和颜色控制：作为即插即用模块可与decoupled cross-attention结合，扩展到风格/颜色控制

局限性 / 可改进方向¶

目前只支持4种空间条件类型，可扩展到更多模态（如法线图、光流等）
Multi-Control Encoder的计算开销随条件数线性增长
未对齐数据的合成策略较简单（前景/背景分离），更复杂的多物体场景值得探索
尚未与最新的SDXL架构适配

评分¶

新颖性: ⭐⭐⭐⭐ Q-Former风格的多控制融合架构设计新颖
实验充分度: ⭐⭐⭐⭐ 提出新benchmark，定性定量分析充分
写作质量: ⭐⭐⭐⭐ 问题分析透彻，架构图清晰
价值: ⭐⭐⭐⭐ 多控制图像生成的实用方案