AIComposer: Any Style and Content Image Composition via Feature Integration¶
会议: ICCV 2025
arXiv: 2507.20721
代码: https://github.com/sherlhw/AIComposer
领域: 扩散模型 / 图像合成
关键词: 跨域图像合成, 无文本提示, CLIP特征融合, 局部交叉注意力, 扩散模型反转
一句话总结¶
AIComposer 提出了首个不依赖文本提示的跨域图像合成方法,通过 MLP 网络融合前景和背景的 CLIP 特征,并结合 backward inversion + forward denoising 和局部交叉注意力策略,在无需训练扩散模型的前提下实现了自然风格化和无缝合成,LPIPS 和 CSD 指标分别提升 30.5% 和 18.1%。
研究背景与动机¶
领域现状:基于大规模预训练文生图(T2I)扩散模型的图像合成技术已取得显著进展。现有方法主要解决同域(same-domain)图像合成问题,即前景和背景来自相似的视觉风格。
现有痛点:跨域(cross-domain)图像合成仍然是一个未充分探索的难题。主要挑战包括:(1) 扩散模型的随机性导致合成结果不稳定;(2) 前景和背景之间存在明显的风格差异(style gap),直接合成会产生明显的拼接痕迹和伪影;(3) 现有方法严重依赖文本提示来引导合成过程,但文本描述难以精确表达复杂的视觉风格和空间关系,限制了实用性。
核心矛盾:跨域合成需要同时解决两个冲突目标——保持前景内容(content preservation)和适配背景风格(style adaptation)。过度保持前景会导致风格不协调,过度适配风格会丢失前景细节。现有方法要么需要额外的预风格化网络(增加复杂度),要么依赖精确的文本描述(降低易用性)。
本文目标:(1) 实现无需文本提示的跨域图像合成;(2) 在不训练扩散模型的前提下完成自然的风格迁移和内容保持;(3) 构建公平评测的跨域合成基准数据集。
切入角度:作者观察到 CLIP 特征空间中同时包含了内容和风格信息,如果能在特征层面直接融合前景和背景的视觉信号,就不需要文本作为中间桥梁。同时,利用 DDIM inversion 可以在不训练的情况下操控扩散过程。
核心 idea:用"CLIP 特征 MLP 融合 + 局部交叉注意力"替代"文本提示引导",实现 training-free(不训练 diffuser)的跨域图像合成。
方法详解¶
整体框架¶
AIComposer 的流程:(1) 从前景图像和背景图像分别提取 CLIP 图像特征;(2) 通过训练好的 MLP 网络融合两组特征,生成统一的条件特征;(3) 对背景图像进行 backward DDIM inversion 获取隐空间表示;(4) 在 forward denoising(去噪)过程中,用局部交叉注意力策略将融合特征注入扩散模型,其中前景区域使用前景特征引导以保持内容,背景区域使用融合特征引导以实现风格和谐;(5) 输出合成图像。整个过程无需训练扩散模型,仅 MLP 网络需要少量训练。
关键设计¶
-
CLIP 特征融合 MLP(Feature Integration Network):
- 功能:将前景和背景的 CLIP 图像特征融合为统一的条件向量,替代文本 embedding 指导扩散过程
- 核心思路:分别用 CLIP 图像编码器提取前景和背景的视觉特征,然后将两组特征拼接后输入一个轻量级 MLP 网络。MLP 学习将两组特征映射到一个合适的联合表示空间,使其既包含前景的内容语义又融入背景的风格调性。输出的融合特征可以直接替代 IP-Adapter 中的文本 embedding,作为扩散模型的条件输入。MLP 结构简单(几层全连接),训练数据量和计算量都很小。
- 设计动机:文本提示难以精确描述复杂的视觉风格和空间关系,且需要用户手动输入。CLIP 特征直接从图像中提取,包含了丰富的视觉信息,比文本更适合指导视觉合成任务。MLP 融合比简单的特征拼接或平均更灵活,能学习到合适的特征交互模式。
-
局部交叉注意力策略(Local Cross-Attention Strategy):
- 功能:在扩散去噪过程中对前景和背景区域施加不同的特征引导,实现内容保持与风格迁移的平衡
- 核心思路:利用前景的分割 mask 将合成区域分为前景和背景两部分。在扩散模型的 cross-attention 层中,对前景区域的 spatial tokens 使用前景 CLIP 特征作为 key-value(强调内容保持),对背景区域使用融合特征作为 key-value(强调风格协调)。这种空间自适应的注意力引导可以确保前景物体的结构和纹理不被背景风格过度影响,同时前景边缘区域能自然过渡到背景风格。
- 设计动机:全局统一的特征引导会导致前景内容丢失(被风格化过度)或背景风格不协调(被前景内容覆盖)。局部策略优雅地解决了"保内容"和"迁风格"之间的矛盾,类似于图像编辑中 mask-guided 的思路,但在注意力特征层面操作比像素级操作更自然。
-
Backward Inversion + Forward Denoising(无训练扩散操控):
- 功能:在不训练扩散模型的前提下实现对合成过程的精确控制
- 核心思路:首先对背景图像进行 DDIM backward inversion,将其映射到高斯噪声空间得到隐表示 \(z_T\)。然后从 \(z_T\) 开始进行 forward denoising,在去噪的每一步中注入融合的 CLIP 特征条件和局部交叉注意力引导。由于 inversion 保留了背景的结构信息(尤其在早期去噪步骤中),合成结果能自然地继承背景的空间布局和风格。整个过程只需少量去噪步骤(约 20-50 步),非常高效。
- 设计动机:训练或微调扩散模型需要大量数据和计算资源,且可能损害扩散模型的原始生成先验(diffusion prior)。通过 inversion + 条件注入的方式,既保留了预训练模型的强大生成能力,又实现了对合成过程的灵活控制。
损失函数 / 训练策略¶
仅 MLP 融合网络需要训练,使用的监督信号包括:(1) 内容保持损失——确保前景内容在合成后不丢失;(2) 风格一致性损失——确保合成图像整体风格与背景一致。扩散模型(SDXL)本身完全不训练,保持原始权重。
实验关键数据¶
主实验¶
在自建的 AIComposer Benchmark 和现有数据集上与 SOTA 方法对比:
| 方法 | LPIPS ↓ | CSD ↓ | FID ↓ | 用户偏好 ↑ | 需要文本 |
|---|---|---|---|---|---|
| TF-ICON | 0.412 | 0.187 | 42.3 | 18.2% | 是 |
| Magic Insert | 0.385 | 0.165 | 38.7 | 22.5% | 是 |
| AnyDoor | 0.368 | 0.158 | 36.2 | 25.1% | 是 |
| Paint-by-Example | 0.392 | 0.171 | 40.1 | 15.8% | 否 |
| AIComposer | 0.255 | 0.129 | 28.5 | 52.4% | 否 |
LPIPS 提升 30.5%,CSD 提升 18.1%,用户偏好远超竞争方法。
消融实验¶
| 配置 | LPIPS ↓ | CSD ↓ | 说明 |
|---|---|---|---|
| Full AIComposer | 0.255 | 0.129 | 完整模型 |
| w/o MLP 融合(直接拼接) | 0.318 | 0.156 | 简单拼接无法学到合适的融合模式 |
| w/o 局部交叉注意力 | 0.342 | 0.162 | 全局引导导致前景内容丢失 |
| w/o Backward Inversion | 0.385 | 0.178 | 失去背景结构信息 |
| 用文本替代 CLIP 特征 | 0.312 | 0.149 | 文本描述不够精确 |
关键发现¶
- MLP 融合 + 局部注意力的组合缺一不可:两者分别贡献了风格融合和内容保持能力,去掉任一都会显著下降
- 无训练扩散操控保持了扩散先验的完整性,效果优于需要训练的方法
- 跨域场景中优势最为明显:当前景和背景风格差异越大(如真实照片前景 + 油画风格背景),AIComposer 相比其他方法的优势越大
- 推理效率高:仅需约 20-50 步 DDIM 去噪,整体速度与 IP-Adapter 相当
亮点与洞察¶
- 无文本跨域合成是一个很有实际意义的突破——用户只需提供两张图片即可,不需要编写复杂的文本提示。这大幅降低了图像合成的使用门槛,适合非专业用户和自动化流水线。
- MLP 融合 CLIP 特征的思路非常简洁高效——不需要复杂的风格迁移网络或 adapter,仅一个轻量 MLP 就能在特征空间中完成跨域融合。这个思路可以迁移到视频合成、3D 场景合成等需要条件融合的任务。
- 局部交叉注意力在空间维度上对不同区域施加不同的条件引导,比全局引导更精细。这个 mask-guided attention 的模式可以推广到任何需要区域级控制的生成任务。
局限与展望¶
- 依赖 CLIP 特征的表达能力——对于 CLIP 难以区分的细粒度风格差异,融合效果可能受限
- 前景 mask 的质量直接影响合成结果,需要准确的分割输入
- 基于 SDXL 的方案在更高分辨率(如 2K/4K)下的效果和效率未验证
- 可考虑将 MLP 替换为更强的注意力融合模块,或引入多尺度特征融合以处理更复杂的场景
- 未来可扩展到视频域,实现时间一致的跨域视频合成
相关工作与启发¶
- vs TF-ICON: TF-ICON 依赖文本提示和文本反转(textual inversion),且需要较多的去噪步骤。AIComposer 完全去掉了文本依赖,更简洁高效。
- vs Magic Insert: Magic Insert 使用 ControlNet 等辅助模块保持结构,但训练成本高且跨域能力有限。AIComposer 通过 CLIP 特征融合在无训练情况下实现更好的跨域效果。
- vs IP-Adapter: AIComposer 的架构灵感来自 IP-Adapter(用图像特征替代文本条件),但专门针对跨域合成设计了 MLP 融合和局部注意力策略,是 IP-Adapter 思路在合成任务上的深化应用。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个无文本跨域图像合成方法,MLP 融合 + 局部注意力的设计简洁有效
- 实验充分度: ⭐⭐⭐⭐ 自建了专门的跨域合成 benchmark,定量和定性评估都很充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法动机明确
- 价值: ⭐⭐⭐⭐ 对跨域图像合成有较大推动,降低了实用门槛,但领域影响范围相对有限
相关论文¶
- [ICCV 2025] CSD-VAR: Content-Style Decomposition in Visual Autoregressive Models
- [ICCV 2025] SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models
- [ICCV 2025] StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
- [ECCV 2024] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs
- [ICCV 2025] Balanced Image Stylization with Style Matching Score