DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation¶

会议: AAAI 2026
arXiv: 2510.14376
代码: https://github.com/dongnami/DOS
领域: 图像生成
关键词: 多物体图像生成, 文本嵌入分离, 对象融合, CLIP嵌入, 方向性分离

一句话总结¶

识别出多物体生成失败的四种场景（相似形状/纹理、不同背景偏好、多物体），通过构建方向性分离向量修改CLIP的三类文本嵌入（语义token/EOT/pooled），在SDXL上将成功率提升16-25%并将融合率降低3-12%，推理速度接近baseline（约4×快于Attend-and-Excite）。

研究背景与动机¶

领域现状: T2I扩散模型在多物体场景生成时频繁出现对象忽略（object neglect）和对象融合（object mixing）。现有方法分两类——latent修改方法（Attend-and-Excite, CONFORM）需要迭代梯度更新，推理慢4-5×；文本嵌入修改方法（TEBOpt）速度快但效果有限
现有痛点: CLIP文本编码器使用因果掩码机制，导致前面token的信息"泄漏"到后面token的嵌入中，造成多物体信息在嵌入空间中纠缠
核心矛盾: latent修改方法效果好但太慢，嵌入修改方法快但效果有限——需要一种既快又有效的嵌入空间操作
本文要解决: (a) 系统识别多物体生成失败的关键场景；(b) 在不修改生成过程的前提下，通过嵌入空间操作有效减少对象忽略和融合
切入角度: 两个关键观察——CLIP因果掩码导致信息混淆、CLIP嵌入差值编码方向信息。由此构建"分离向量"在嵌入空间中推开不同物体
核心idea: 对每对物体计算分离向量（方向性差异），按物体对的视觉相似度自适应加权，加到三类CLIP嵌入上实现物体分离

方法详解¶

整体框架¶

输入prompt经CLIP编码后，DOS在嵌入送入T2I模型前修改三类嵌入：语义token嵌入 \(\bm{c}_{obj}^n\)、EOT嵌入 \(\bm{c}_{EOT}\) 和pooled嵌入 \(\bm{c}_{pool}\)。修改方式是为每类嵌入加上DOS向量——由所有物体对的分离向量加权平均得到。

关键设计¶

四类问题场景识别:
做什么: 系统分析多物体生成失败模式
核心发现: Similar Shapes（形状相似→融合）、Similar Textures（纹理相似→融合）、Dissimilar Background Biases（背景偏好差异大→忽略）、Many Objects（物体多→累积效应）。实验表明不同场景间成功率差异达26.5%-60.5%
设计动机: 识别问题根源才能针对性解决
分离向量构建（对语义token嵌入）:
做什么: 用纯净prompt的嵌入差值作为分离方向
核心思路: 对物体对 \((obj_n, obj_m)\)，构建纯prompt "a {\(obj_n\)}" 和 "a {\(obj_m\)}" 获取各自纯净嵌入，差值即分离向量 \(\mathbf{s}_{obj}^{(n,m)} = \bm{c}_{obj}^{pure,n} - \bm{c}_{obj}^{pure,m}\)
设计动机: 纯prompt避免CLIP因果掩码造成的信息混淆，得到干净的物体特定表示
分离向量构建（对EOT/pooled嵌入）:
做什么: 用对比prompt的嵌入差值作为分离方向
核心思路: 构建对比prompt——"a {\(obj_n\)} separated from a {\(obj_m\)}" vs "a {\(obj_n\)} mixed with a {\(obj_m\)}"，差值 \(\mathbf{s}_{EOT/pool}^{(n,m)} = \bm{c}^{sep} - \bm{c}^{mix}\) 编码"分离 vs 混合"的方向
设计动机: EOT/pooled嵌入本身就包含全局信息混合，利用这种混合通过对比prompt提取分离方向
自适应强度计算:
做什么: 根据物体对的视觉相似度和背景差异自动调节分离力度
核心思路: 用42个形状/纹理描述词和36个背景短语构建属性profile，计算物体对之间的Pearson相关性。通过shifted sigmoid函数 \(\alpha_\tau^{(n,m)} = \max\{\sigma(\rho^{attr}), \sigma(1-\rho^{bg})\}\) 得到自适应权重——形状/纹理越相似或背景偏好越不同，分离力度越大
设计动机: 不同物体对的"需要分离程度"不同，一刀切的强度不合适
DOS向量聚合与嵌入更新:
做什么: 加权平均所有物体对的分离向量，加到原始嵌入上
核心思路: \(\mathbf{v}_\tau^{DOS,n} = \frac{1}{N-1}\sum_{m \neq n} \alpha_\tau^{(n,m)} \mathbf{s}_\tau^{(n,m)}\)，语义token逐物体加DOS向量，EOT/pooled嵌入加所有物体的DOS向量之和

实验关键数据¶

主实验（SDXL）¶

Benchmark	Base SR↑	DOS SR↑	Base MR↓	DOS MR↓
Similar Shapes	48.0%	64.0%	6.5%	3.5%
Similar Textures	58.0%	71.5%	7.5%	3.5%
Dissimilar BG Bias	46.0%	68.5%	22.5%	17.0%
Many Objects	23.0%	48.0%	27.5%	15.5%

人类偏好研究（表2）: DOS获得43-55%投票，远超第二名（11-23%），差距达26-43个百分点。

推理速度（表3）: DOS 13.87s vs A&E 58.83s vs CONFORM 58.48s（约4×加速）。

消融实验¶

DOS应用到哪些嵌入	Similar Shapes SR	Many Objects MR
无（baseline）	48.0%	27.5%
仅semantic token	提升SR	MR改善有限
仅EOT/pooled	提升SR	MR显著下降
全部三类	64.0%	15.5%

关键发现¶

三类嵌入互补: 语义token嵌入帮助解决特定物体的表示，EOT/pooled嵌入影响全局空间布局——二者缺一不可
自适应强度关键: 移除自适应权重后性能下降，说明针对高风险物体对加强分离很重要
SD3.5上同样有效: 在更新架构上SR也提升5.5-8.5%，验证方法的通用性
不修改生成过程=不引入artifact: 与latent修改方法不同，DOS不偏离训练时的latent分布

亮点与洞察¶

Zero-cost embedding surgery — 只在送入T2I模型前修改嵌入，不修改生成过程，推理时间几乎无增加（+0.9s）。这种"在边界做手术"的思路极其优雅，可迁移到任何条件生成任务
利用CLIP本身的缺陷来修复 — 因果掩码导致信息混淆是CLIP的固有缺陷，但作者用对比prompt巧妙地"以毒攻毒"，利用同样的混合机制提取分离方向
自适应强度设计严谨 — 用42+36个描述词构建物体属性profile，基于Pearson相关性+shifted sigmoid实现物体对级别的细粒度控制

局限性 / 可改进方向¶

依赖CLIP编码器: 对非CLIP编码器（如T5）的嵌入未做处理，可能限制在仅用T5的模型上的效果
物体解析依赖: 需要正确识别prompt中的物体名词及其位置
属性绑定未重点解决: 主要解决对象忽略/融合，对"红帽子蓝外套"这类属性绑定问题关注较少
改进思路: 可以将分离向量扩展到属性-物体的绑定问题；可以自动学习自适应权重（而非手工设计）

评分¶

新颖性: ⭐⭐⭐⭐ 方向性分离向量设计巧妙，自适应强度考虑周全
实验充分度: ⭐⭐⭐⭐⭐ 4个benchmark+人类偏好+消融+速度对比+SD3.5验证
写作质量: ⭐⭐⭐⭐⭐ 从问题分析到方法设计再到实验验证的逻辑链完整清晰
价值: ⭐⭐⭐⭐ 对多物体生成有直接实用价值，方法通用且高效