MCA-Ctrl: Multi-party Collaborative Attention Control for Image Customization¶

会议: CVPR 2025
arXiv: 2505.01428
代码: https://github.com/yanghan-yh/MCA-Ctrl
领域: 图像生成 / 图像定制
关键词: 图像定制, 注意力控制, 免微调, 主体生成, 扩散模型

一句话总结¶

提出 MCA-Ctrl，一种免微调的图像定制方法，通过三个并行扩散过程在自注意力层中的全局注入（SAGI）和局部查询（SALQ）操作，同时支持文本和图像条件的高质量主体生成、替换和添加。

领域现状：图像定制方法分为需微调（Dreambooth、Textual Inversion）和免训练（IP-Adapter）两类，但都存在局限。

现有痛点：(1) 多数方法仅支持文本驱动，背景不可控；(2) 复杂视觉场景中主体泄漏或混淆；(3) 图像条件下背景不一致；(4) 微调方法计算成本高。

核心 idea：协调三个并行扩散过程（主体/条件/目标），通过自注意力层的注入和查询操作，让目标图像同时继承主体外观和条件布局。

自注意力局部查询（SALQ）：目标扩散过程用自己的 Query 去查询主体的前景 Key-Value 和条件的背景 Key-Value，通过掩码限制查询区域避免混淆
自注意力全局注入（SAGI）：将主体和条件各自重建过程中的自注意力特征（经掩码过滤）直接注入目标过程的对应区域，增强细节真实性
主体定位模块（SLM）：用 DINO 检测 + SAM 分割精确定位用户指定的主体，生成二值掩码和可编辑图像层，解决复杂场景中的主体混淆

完全免训练，基于 Stable Diffusion，通过 DDIM 反转获取主体和条件图像的初始噪声。

在零样本图像定制上超越 IP-Adapter、BLIP-Diffusion 等方法： - 主体一致性和条件遵循度均显著更好 - 支持三种任务（生成/替换/添加）的统一框架

任务	CLIP-I↑	CLIP-T↑	用户偏好率
主体生成	0.82	0.31	73%
主体替换	0.79	0.29	68%
主体添加	0.76	0.30	71%