DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control¶

会议: AAAI 2026
arXiv: 2602.18282
代码: dushy5/DEIG
领域: 人体理解
关键词: 多实例生成, 细粒度语义控制, 扩散模型, 属性绑定, 掩码注意力

一句话总结¶

提出 DEIG，一个面向细粒度多实例图像生成的框架，通过实例细节提取器（IDE）将 LLM 编码器的高维嵌入蒸馏为紧凑的实例感知表示，并用细节融合模块（DFM）的实例掩码注意力防止属性泄漏，在多属性（颜色+材质+纹理）复合描述的生成任务上大幅超越现有方法。

研究背景与动机¶

多实例生成（Multi-Instance Generation）旨在根据用户指定的空间位置和描述生成包含多个语义不同实例的图像。现有方法（GLIGEN、MIGC、InstanceDiffusion 等）在简单提示下表现良好，但面对复杂的多属性描述（如"红蓝条纹丝绸连衣裙"）时严重不足。

两个核心问题：

语义理解不足：现有方法主要关注防止语义泄漏（属性从一个实例泄漏到另一个），但忽视了对细粒度属性的深层语义理解
训练数据粗粒度：常用数据集的实例描述为模板化的粗粒度标注（如"a red person"），无法让模型学到丰富的语义-视觉映射

方法详解¶

整体框架¶

DEIG 基于 UNet 扩散模型，包含三个核心组件：

冻结的 LLM 文本编码器（Flan-T5-XL）：提取高维实例描述嵌入
实例细节提取器 IDE：将高维嵌入蒸馏为紧凑的实例感知表示
细节融合模块 DFM：通过掩码注意力将实例表示注入 UNet

用户输入：全局描述 \(\mathcal{P}\)，每个实例的 bounding box \(b_i\) 和细粒度文本描述 \(p_i\)。

关键设计¶

1. 实例细节提取器（IDE）

传统多模态编码器（如 CLIP text encoder）对长文本和复杂属性描述的理解能力有限。DEIG 用冻结的 Flan-T5-XL 作为文本编码器，但其输出嵌入 \(\mathbf{E}_\tau \in \mathbb{R}^{B \times N \times S_\tau \times C}\) 维度过高（\(S_\tau\) 很大），不适合直接使用。

IDE 引入可学习查询 \(\mathbf{Q} \in \mathbb{R}^{B \times N \times S \times C}\)（\(S \ll S_\tau\)），\(S\) 称为"聚合语义维度"，作为信息压缩瓶颈。每层 IDE 通过以下步骤精炼查询：

TimeMLP 时间步条件化 → AdaLN 自适应归一化
自注意力：捕捉实例内依赖
交叉注意力：与冻结编码器的高维特征对齐

\[\mathbf{H_{ca}^i} = \text{CrossAttn}(\text{AdaLN}(\mathbf{H_{sa}^i}, \mathbf{T_{emb}}), [\mathbf{H_{sa}^i}, \mathbf{E_\tau}])\]

堆叠多层后输出紧凑的聚合语义嵌入。可视化显示不同语义维度 \(S\) 的各通道分别关注不同的细粒度属性。

2. 细节融合模块（DFM）

包含两个子组件：

Grounding Embeddings Broadcast：将空间坐标（bounding box）通过 Fourier 编码并广播到所有 \(S\) 个语义维度，与聚合语义嵌入融合：

\[\mathbf{G}_{\text{ase},i} = \text{MLP}([m \cdot \mathbf{f_i} + (1-m) \cdot \mathbf{e}_i, \mathbf{E}_{\text{ase},i}])\]

Instance-based Masked Attention：在 UNet 的自/交叉注意力之间插入门控自注意力模块，定义二值掩码 \(\mathbf{M}\) 控制注意力交互：

(a) Visual-Visual：视觉嵌入间不加掩码（保持图像保真度）
(b) Instance-Visual：每个实例仅注意同实例的视觉区域（双向），跨实例交互设为 \(-\infty\)
(c) Instance-Instance：仅同组实例间可注意，跨组设为 \(-\infty\)

\[\hat{\mathbf{A}} = \text{Softmax}\left(\frac{\mathbf{QK}^T}{\sqrt{d}} + \mathbf{M}\right)\mathbf{V}\]

视觉嵌入通过门控残差更新：\(\mathbf{V}_{\text{visual}} = \mathbf{V}_{\text{visual}} + \eta \cdot \tanh\gamma \cdot \mathcal{ES}(\hat{\mathbf{A}})\)，其中 \(\eta, \gamma\) 为可学习标量。

3. 细节增强实例标注（Detail-Enriched Captions）

从 MS-COCO 数据集出发，用 Qwen2.5-VL 对裁剪实例图像生成平均 20-30 词的详细描述。两阶段质量控制：(1) CLIP score 过滤低于阈值的图像-标注对；(2) 对 500 对随机样本进行人工验证。

损失函数 / 训练策略¶

标准扩散模型去噪损失
冻结 UNet 的自注意力和交叉注意力，仅训练 IDE + DFM 的插入模块
文本编码器为冻结的 Flan-T5-XL
即插即用设计，兼容社区扩散模型骨干

实验关键数据¶

主实验¶

Table 1: DEIG-Bench 定量结果（Qwen2.5-VL 评估）

方法	MAA_human↑	MAA_obj↑	mIoU↑
GLIGEN	0.10	0.10	0.71
MIGC	0.22	0.36	0.72
InstanceDiffusion	0.25	0.33	0.75
ROICtrl	0.31	0.33	0.71
DEIG	0.75	0.44	0.79

人体实例 MAA 从 0.31 跃升至 0.75（+142%），物体实例 MAA 从 0.36 跃升至 0.44（+22%）。

Table 2: MIG-Bench 定量结果

方法	实例成功率 AVG↑	mIoU AVG↑
MIGC	65.84	56.44
ROICtrl	63.25	55.27
DEIG	72.25	62.64

Table 3: InstDiff-Bench 定量结果

方法	Acc_c.↑	CLIP_c.↑	Acc_t.↑	CLIP_t.↑
ROICtrl	56.9	0.255	23.7	0.223
DEIG	58.8	0.258	26.1	0.228

消融实验¶

Table 4: 组件消融（DEIG-Bench, Qwen2.5-VL）

IDE	DFM	Cap.	mIoU↑	MAA_human↑	MAA_obj↑
✗	✓	✓	0.73	0.51	0.35
✓	✗	✓	0.75	0.70	0.41
✓	✓	✗	0.70	0.31	0.29
✓	✓	✓	0.79	0.75	0.44

细节标注（Cap.）影响最大——移除后 MAA_human 从 0.75 骤降至 0.31，证明高质量细粒度标注是性能关键。

聚合语义维度 \(S\) 的影响：\(S\) 从 4 增到 16 时 MAA 持续提升，16-32 达到饱和，超过 32 略有过拟合。GPU 显存随 \(S\) 线性增长，\(S=16\sim32\) 为最佳平衡点。

关键发现¶

颜色属性比材质/纹理更容易生成（与 RGB 空间直接相关），材质/纹理需更深层语义理解
人体实例对细粒度控制的敏感度高于物体实例（消融中人体 MAA 下降更剧烈）
DEIG 即插即用适配社区扩散模型后仍保持细粒度控制能力

亮点与洞察¶

细粒度标注是被低估的瓶颈：消融实验表明，数据质量比模型架构更关键——粗粒度标注是限制当前方法的主因
查询蒸馏压缩高维嵌入：IDE 的可学习查询（\(S \ll S_\tau\)）优雅地解决了 LLM 编码器输出过长的问题，且各维度可解释地对应不同属性
实例掩码注意力设计完备：三类注意力交互（V-V/I-V/I-I）分别处理，视觉间不加掩码保持保真度的决策经实验验证
评估创新：DEIG-Bench 填补了人体实例多属性评估的空白，引入的 MAA 指标更贴合实际需求

局限性 / 可改进方向¶

材质和纹理的生成提升幅度有限，这类抽象语义的建模仍是开放问题
InstDiff-Bench 上空间对齐（AP）略低，密集区域的实例掩码注意力可能过度限制交互
基于 UNet 的 SD1.5 架构，尚未适配 DiT 架构（如 FLUX、SD3），可能限制生成质量上限
标注生成依赖 Qwen2.5-VL，VLM 的幻觉问题可能引入噪声

评分¶

新颖性: ⭐⭐⭐⭐ — IDE + DFM 的组合设计聚焦于被忽视的细粒度语义问题
技术深度: ⭐⭐⭐⭐ — 查询蒸馏 + 三类掩码注意力 + 标注流程的完整技术栈
实验充分度: ⭐⭐⭐⭐⭐ — 3 个 benchmark + 自建 DEIG-Bench，消融包含组件和超参分析
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，可视化（注意力图、语义维度）有说服力