Self-Cross Diffusion Guidance for Text-to-Image Synthesis of Similar Subjects¶

会议: CVPR 2025
arXiv: 2411.18936
代码: 无
领域: 图像生成
关键词: 扩散模型引导, 主体混合, 自注意力-交叉注意力, 免训练推理, 相似主体生成

一句话总结¶

提出 Self-Cross Diffusion Guidance，通过惩罚一个主体的聚合自注意力图与另一个主体的交叉注意力图之间的重叠，有效解决扩散模型生成相似主体时的主体混合问题，是首个同时利用自注意力和交叉注意力交互关系的免训练方法。

Self-Cross Guidance 是一种免训练的推理时优化方法。在扩散反向过程的前半段时间步中，从每个主体的交叉注意力图中通过 Otsu 阈值化选择对应 patch，聚合这些 patch 的自注意力图，然后惩罚聚合自注意力与其他主体交叉注意力之间的重叠。结合初始噪声优化和迭代潜变量精修实现。

设计一：自注意力图聚合

功能：获取覆盖整个主体区域的自注意力表示
核心思路：对主体 \(i\) 的交叉注意力图 \(A_i^c\) 应用 Otsu 阈值化选择高响应 patch。将选中 patch 的自注意力图按交叉注意力值加权求和：\(A_i^s = \frac{\sum_{x_m,y_n}(A_i^c[x_m,y_n] \times A_{x_m,y_n}^s)}{\sum_{x_m,y_n} A_i^c[x_m,y_n]}\)
设计动机：不同 patch 的自注意力图差异很大，仅用最具区分性的单个 patch 无法覆盖主体完整区域。通过聚合多个 patch 的自注意力，可以获得更全面的主体关注区域表示

设计二：Self-Cross 引导损失

功能：惩罚一个主体的自注意力区域与另一个主体的交叉注意力区域的重叠，消除主体混合
核心思路：对于主体对 \((i,j)\)，计算重叠 \(g(i,j) = \sum_{x,y} \min(A_i^s[x,y], A_j^c[x,y]) + \sum_{x,y} \min(A_i^c[x,y], A_j^s[x,y])\)。\(N\) 个相似主体时取所有 \(C_N^2\) 对的平均。总损失 \(\mathcal{L}_{total} = S_{self-cross} + \lambda \cdot S_{cross-attn}\)
设计动机：主体混合的本质是一个主体的自注意力侵入了另一个主体的区域。聚合自注意力图与交叉注意力图的重叠比单独使用任一种注意力更能精确捕捉这种侵入

设计三：SSD 基准与 GPT-4o 评估

功能：提供挑战性的相似主体生成评测基准
核心思路：发布 Similar-Subject Dataset（SSD），包含两个或三个相似主体的文本提示。利用 GPT-4o 通过视觉问答自动评估生成图像中主体的存在性、可识别性和属性绑定
设计动机：CLIP score 无法有效区分主体混合问题，GPT-4o 评估与人类判断具有更高一致性

\[\mathcal{L}_{total} = S_{self-cross} + \lambda \cdot S_{cross-attn}\]

其中 \(S_{cross-attn}\) 沿用 Attend&Excite 的交叉注意力响应得分，\(\lambda\) 为平衡系数。仅在前半段去噪步骤和中间层应用。

方法	存在性 ↑	可识别性 ↑	属性绑定 ↑	FID ↓
Stable Diffusion	基线	基线	基线	基线
Attend&Excite	改善	有限改善	有限改善	—
INITNO	改善	部分改善	部分改善	—
CONFORM	改善	部分改善	部分改善	—
Self-Cross (Ours)	最佳	最佳	最佳	保持

⭐⭐⭐⭐ — 对主体混合成因的分析有深度（自注意力侵入），Self-Cross 引导损失设计直观有效。多 patch 聚合策略比单 patch 方案的显著优势令人信服。SSD 基准和 GPT-4o 评估为社区提供了有价值的工具。