Discovering Divergent Representations between Text-to-Image Models¶

会议: ICCV 2025
arXiv: 2509.08940
代码: https://github.com/adobe-research/CompCon
领域: 扩散模型 / 模型分析
关键词: 文生图模型对比, 表征差异发现, 进化搜索, 视觉属性, 模型偏见

一句话总结¶

提出 CompCon（Comparing Concepts），一种进化搜索算法，自动发现两个文生图模型之间的"分歧表征"——即在哪些视觉属性上、被哪类提示词触发时，两个模型会产生截然不同的输出，并构建了 ID² 基准数据集进行系统评估。

研究背景与动机¶

领域现状：文生图（Text-to-Image, T2I）模型如 Stable Diffusion、DALL-E、PixArt、Playground 等已成为主流创作工具。每个模型由不同的训练数据、架构和优化策略塑造，因此它们对相同文本提示可能生成视觉上截然不同的图像。但目前缺乏系统化工具来理解"这些模型到底在哪些方面不同"。

现有痛点：对模型差异的分析主要依赖人工主观评估或 FID 等全局统计量，前者不可扩展、后者缺乏可解释性。我们知道不同模型"生成的图看起来不一样"，但很难精确说出"在什么条件下、表现在哪个视觉属性上不同"。

核心矛盾：模型间的差异是条件依赖的（input-dependent）——同一对模型在某些类型的提示词下可能表现一致，在另一些类型下却截然不同。简单比较总体输出分布无法捕捉这种细粒度的、依赖输入的差异。

本文目标：自动发现两个 T2I 模型之间的"分歧表征"（divergent representations），即找到（视觉属性, 提示词类型）的配对，使得给定某类提示词时，一个模型倾向于展示某个视觉属性，而另一个模型不会。

切入角度：作者借鉴了进化搜索的思想——从一组初始假设出发，通过迭代的提出→验证→筛选→进化循环，逐步发现越来越准确和有趣的分歧表征。

核心 idea：用 LLM/VLM 驱动的进化搜索算法自动产生"哪个视觉属性在哪类提示词下分化"的假设，然后用 VLM 分类器在生成图像上验证假设，保留通过验证的、迭代进化出更精确的描述。

方法详解¶

整体框架¶

CompCon 的流程分为三阶段：（1）给定一组提示词，分别用两个模型生成图像；（2）用 VLM 分析两组图像的视觉差异，提出"分歧假设"（如"模型 A 的输出中更常出现火焰"）；（3）通过进化搜索迭代优化假设，同时发现触发该差异的提示词特征（如"与强烈情感相关的提示词"）。最终输出是一组经过验证的（视觉属性, 触发条件）配对。

关键设计¶

进化属性搜索（Evolutionary Attribute Search）:
- 功能：自动发现一个模型输出中存在而另一个模型中缺失的视觉属性
- 核心思路：维护一个属性假设种群。每轮迭代中，（a）用 VLM（如 GPT-4V）观察两个模型的生成图像并提出新的视觉差异假设；（b）用 VLM 分类器对每个假设在所有图像上进行二分类（该属性是否存在）；（c）计算"分歧得分"——该属性在两个模型输出中出现频率的差值；（d）保留高分假设，淘汰低分假设，让 LLM 基于高分假设变异/交叉产生新假设
- 设计动机：直接枚举所有可能的视觉属性是不现实的，进化搜索利用 LLM 的创造力和 VLM 的视觉判断力来高效探索巨大的假设空间
提示词概念链接（Prompt Concept Linking）:
- 功能：找出触发某个视觉差异的提示词特征/概念
- 核心思路：对于已发现的高分歧视觉属性，将展示该属性的图像对应的提示词和不展示的提示词分为两组，用 LLM 分析两组提示词的语义差异，提取出"触发概念"。例如，"火焰"属性主要由"涉及情感表达的提示词"触发。这一步使用迭代精化：初始描述→在更多数据上验证→根据误判案例调整描述
- 设计动机：仅知道"模型 A 更常生成火焰"是不够的，还需要知道在什么条件下才会出现这种差异，这样用户才能理解和利用模型的特性
ID² 基准数据集（Input-Dependent Differences Dataset）:
- 功能：提供标准化的评估框架来衡量分歧发现算法的性能
- 核心思路：使用自动化数据生成流程创建 60 个已知的输入依赖差异。对于每个差异，提供分歧视觉属性和对应的分歧提示词描述，然后用 LLM 生成包含/不包含该属性的提示词对，再用 T2I 模型生成图像对。评估指标衡量算法能否准确召回这些已知差异
- 设计动机：现有工作缺乏客观评价分歧发现能力的基准，ID² 填补了这一空白

损失函数 / 训练策略¶

CompCon 不涉及神经网络训练。其核心度量是分歧得分 \(\Delta(a) = |P(\text{attr}=a | \text{model}_1) - P(\text{attr}=a | \text{model}_2)|\)，衡量属性 \(a\) 在两个模型间的出现频率差异。进化搜索使用阈值过滤（\(\Delta > \tau\)，\(\tau = 0.2\)）保留有意义的差异，并用去重机制（基于语义相似度）合并近似等价的假设。

实验关键数据¶

主实验¶

方法	Recall@10 (ID²)	Precision@10	平均分歧得分
CompCon	0.58	0.72	0.41
LLM-only baseline	0.32	0.45	0.28
VLM-only baseline	0.38	0.51	0.33
TF-IDF baseline	0.21	0.30	0.19
Random sampling	0.08	0.12	0.11

模型对比发现¶

模型对	发现的分歧表征	触发条件
PixArt vs SD 3.5	PixArt 生成"湿漉漉的街道"	与孤独感相关的提示词
SD 3.5 vs Playground	SD 3.5 更多展示非裔美国人	与媒体职业相关的提示词
DALL-E 3 vs SD 3.5	DALL-E 3 更多卡通风格	涉及动物的提示词
PixArt vs Playground	Playground 更多高对比度光影	涉及建筑的提示词

关键发现¶

CompCon 比 LLM-only baseline 在 Recall 上高出 81%，证明视觉信号（VLM 判断）对发现分歧至关重要
进化搜索相比单轮搜索提升约 30%，迭代优化能发现更多非直觉的分歧
发现了一些令人惊讶的偏见模式，如特定模型将某些种族与特定职业关联
ID² 数据集包含 60 个已知差异，涵盖风格、内容、构图等多个维度

亮点与洞察¶

进化搜索 + LLM/VLM 的巧妙结合：用 LLM 的语言推理能力生成假设，用 VLM 的视觉判断能力验证假设，两者通过进化框架协同工作——这种"AI 驱动的科学发现"范式可以推广到其他比较分析任务
Input-dependent 差异的精准定位：不是简单比较两个模型的总体输出分布，而是精确到"什么输入下"→"什么视觉属性"不同，这种细粒度分析对模型审计和安全评估很有价值
发现社会偏见：该方法不仅能发现风格差异，还能揭示模型中隐藏的种族、性别等社会偏见，对 AI 公平性研究有重要意义

局限与展望¶

CompCon 的效果强依赖 VLM 分类器的准确性，对于微妙的视觉差异可能遗漏
进化搜索需要大量 API 调用（LLM + VLM），计算成本较高
当前只比较两个模型，扩展到多模型同时比较的效率有待提升
ID² 数据集基于自动化流程生成，可能未覆盖所有类型的分歧
未来方向：将方法扩展到视频生成模型比较；结合人类反馈优化分歧发现；用发现的分歧指导模型改进

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化地发现 T2I 模型间的 input-dependent 分歧表征，问题定义和方法都很新颖
实验充分度: ⭐⭐⭐⭐ 构建了 ID² 基准数据集，对多对模型进行了系统分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，案例分析生动有趣
价值: ⭐⭐⭐⭐ 对模型理解、模型选择、偏见审计等多个场景有实际价值