CURE: Cultural Gaps in the Long Tail of Text-to-Image Systems¶

会议: ICCV 2025
arXiv: 2506.08071
代码: https://aniketrege.github.io/cure/
领域: 图像生成 / T2I 公平性
关键词: 文本到图像生成, 文化代表性, 基准评测, 边际信息归因, 长尾偏差

一句话总结¶

提出 CURE 基准与评分套件，利用属性规范的边际效用（Marginal Information Attribution）作为人类判断的代理指标，系统评估 T2I 系统在全球文化长尾分布上的代表性能力。

研究背景与动机¶

当前主流 T2I 系统（如 Stable Diffusion、FLUX、DALL-E 3）基于网络爬取数据训练，数据分布严重偏向美欧文化，导致全球南方文化的文物生成质量低下（幻觉、细节错误）。现有文化偏差评估方法面临三大问题：

人工评估不可扩展：大规模用户研究成本高昂且难以复现

代理评分器与人类判断相关性弱：基于 CLIP 相似度或真实图像对比的传统指标无法准确反映文化代表性

生成纠缠（Generative Entanglement）：评分器与 T2I 系统共享预训练数据（如 LAION-2B），导致评估结果偏高且具有误导性

作者以陶器生成为例：生成"ceramic diyas"（印度）效果好，但"jebena"（埃塞俄比亚）和"amphora of Hermonax"（希腊）则严重失真。这种现象本质上是训练数据长尾分布的直接反映。

方法详解¶

整体框架¶

CURE 包含两个核心组件：数据集和评分器套件，通过"逐步增加提示信息"来评估 T2I 系统对文化知识的内化程度。

关键设计¶

1. CURE 数据集构建¶

从 Wikimedia 知识图谱自动构建分层类别体系： - 6 个文化轴（s）：食物、艺术、时尚、建筑、庆典、人物 - 32 个文化类别（c）：如 dumpling、flatbread、pottery 等 - 300 个文化文物（n）：如 banku（加纳饺子）、modak（印度甜点） - 64 个国家/地区（r）

属性层次为 $s \to c \to n, r$，通过系统遍历 Wikimedia 的父子节点实现民主化、可扩展的数据集构建。

2. 边际信息归因（MIA）评分器¶

核心假设：如果 T2I 系统已充分学习某文化文物的知识，那么增加提示中的属性信息（如从仅指定名称到同时指定类别、地区）不应显著改变生成质量。

具体通过三类评分器实现：

感知相似性（PS）评分器： $$\phi_{PS}(n) = sim(I(n), I(c))$$ 比较仅按名称生成的图像 $I(n)$ 与按类别生成的图像 $I(c)$ 之间的相似度。如果两者相似，说明 T2I 系统已学会 $n \to c$ 的文化关联。

图像-文本对齐（ITA）评分器： $$\phi_{ITA}(a) = \frac{sim(I(n), P(n)) + sim(I(n), P(a))}{2}$$ 同时评估视觉正确性和文化关联性，避免直接查询区域相关性的低效问题。

多样性（DIV）评分器： $$\phi_{DIV} = LPIPS(n, \{n,c\}, \{n,r\}, \{n,c,r\})$$ 计算不同属性规范下生成图像间的 LPIPS 成对差异，衡量信息增加对多样性的影响。

3. 用户研究设计¶

在 Prolific 平台雇佣匹配国籍的众包工人，评估三项 Likert 量表：文化代表性、感知相似性、类别似然性。关键创新：要求工人明确认同其国籍文化，而非简单假设。

损失函数 / 训练策略¶

本文为评测工作，不涉及模型训练。核心评估指标为 Spearman 秩相关系数 $\rho$，衡量自动评分器与人类金标准判断的单调关系。

实验关键数据¶

主实验（感知相似性评分器与人类判断的 Spearman 相关性）¶

编码器	评分器	FLUX.1 $\phi^*_{CURE}$	FLUX.1 $\phi^*_{PS}$	SD 3.5 $\phi^*_{CURE}$	SD 3.5 $\phi^*_{PS}$
SigLIP 2	$\phi_{GT}(n)$↑	0.25	0.44	0.27	0.45
SigLIP 2	$\phi_{PS}(n)$↑	0.18	0.32	0.22	0.38
SigLIP 2	$\Delta\phi_{PS}(\{n,c\})$↓	-0.16	-0.31	-0.21	-0.37
DINOv2	$\phi_{GT}(n)$↑	0.17	0.40	0.25	0.46
DINOv2	$\Delta\phi_{PS}(\{n,c\})$↓	-0.19	-0.32	-0.21	-0.35

消融实验（ITA 评分器对比，SigLIP 2 backbone）¶

评分器	FLUX.1 $\phi^*_{CURE}$	FLUX.1 $\phi^*_{GT}$	SD 3.5 $\phi^*_{CURE}$	SD 3.5 $\phi^*_{GT}$
Khanuja et al.	0.13	0.08	0.05	0.04
sim(I(n), P(n))	0.24	0.35	0.18	0.31
$\phi_{ITA}(\{c,r\})$ (Ours)	0.27	0.38	0.23	0.34
PickScore	0.20	0.29	0.23	0.37
Gemini 2.0 Flash	0.23	0.41	0.27	0.37

关键发现¶

MIA 评分器在无需真实图像的情况下接近甚至匹配需要 GT 图像的基线性能
所有量化评分器与人类判断的最高相关性仅 $\rho=0.51$，说明当前视觉编码器仍远不足以替代人类文化判断
T2I 系统质量越高（ELO 越高），多样性越高但文化准确性反而下降（事实性-多样性权衡）
Gemini 2.0 Flash 作为 MLLM 评判者表现不错但会幻觉全球南方文化细节

亮点与洞察¶

数据集设计的巧思：利用 Wikimedia 知识图谱的层次结构实现自动化构建，任何人都可以添加新文化类别
边际信息归因的核心洞察：不直接评估生成质量，而是观察"给更多信息后质量变化多少"——这是一个优雅的间接评估策略
揭示了生成纠缠问题：使用与 T2I 系统共享训练数据的 VLM 评估会系统性高估性能
评测覆盖了 64 个国家、6 个 T2I 系统、多种编码器/VLM，实验规模扎实

局限与展望¶

以地理（国家）作为文化代理过于粗糙，未考虑宗教、语言等维度
PS 评分器对低质量 T2I 系统（如 SD 1.5）效果差，依赖 T2I 系统本身的覆盖质量
无法处理语义歧义（如"damper"既是澳大利亚面包又是机械设备）
用户研究仅使用英语问卷，可能引入语言偏差

评分¶

新颖性: ⭐⭐⭐⭐ （MIA 评分框架新颖且有理论基础）
实验充分度: ⭐⭐⭐⭐⭐ （6 个 T2I 系统 + 大规模用户研究 + 多维度消融）
写作质量: ⭐⭐⭐⭐ （结构清晰，图表丰富）
价值: ⭐⭐⭐⭐ （为 T2I 文化公平性提供了实用评测工具）