Science-T2I: Addressing Scientific Illusions in Image Synthesis¶

会议: CVPR 2025
arXiv: 2504.13129
代码: https://github.com/Jialuo-Li/Science-T2I
领域: 图像生成
关键词: 文本生成图像, 科学推理, 奖励模型, 对齐, 基准测试

一句话总结¶

Science-T2I 构建了涵盖 16 个科学领域的 20k+ 对抗图像对基准，揭示当前图像生成模型在隐式科学推理上的系统性缺陷（所有模型得分低于 50/100），并提出 SciScore 奖励模型和两阶段对齐框架（SFT+OFT），将 FLUX.1[dev] 的科学推理能力提升超过 50%。

研究背景与动机¶

领域现状：当前文本到图像（T2I）生成模型（FLUX、SDXL 等）在视觉保真度上取得了显著进步，能生成高分辨率、高美感的图像。评估指标（FID 等）也持续改善。

现有痛点：这些模型生成的图像虽然视觉上逼真，但在科学层面常常是不合理的。例如，给定"一个未成熟的苹果"，模型往往生成红色苹果（基于视觉原型记忆）而非绿色苹果（基于科学知识）。这暴露了"视觉逼真"和"物理/科学正确"之间的根本性鸿沟。

核心矛盾：模型的训练数据很少将科学概念与其正确的视觉表现配对，标准评估协议也不检测模型是否理解 prompt 背后的科学原理。问题不在于模型无法渲染正确的场景（显式 prompt 得分高出约 35 分），而在于无法从隐式科学线索推理出正确的视觉结果。

本文目标：（1）构建系统的科学图像合成基准；（2）开发能捕捉细粒度科学现象的奖励模型；（3）提出有效的对齐框架将科学知识注入生成模型。

切入角度：通过"隐式-显式-浅层"三层 prompt 结构解耦模型的组合渲染能力和科学推理能力——显式 prompt 衡量渲染上限，隐式 prompt 衡量推理能力，浅层 prompt 提供硬负例。

核心 idea：用专家标注的对抗图像对微调 CLIP-H 得到 SciScore 奖励模型，再用 SFT+基于 SciScore 的在线微调（OFT with 主体遮罩）将科学推理能力注入 FLUX。

方法详解¶

整体框架¶

整个工作分为三部分：（1）Science-T2I 数据集构建（20k+ 训练对 + 454 测试 prompt）；（2）SciScore 奖励模型训练；（3）两阶段对齐框架（SFT → OFT）。输入为隐式科学 prompt，输出为科学正确的生成图像。

关键设计¶

三层 Prompt 结构（IP/EP/SP）:
- 功能：系统地解耦模型的科学推理能力与组合渲染能力
- 核心思路：对每个科学任务构建三元组 prompt。Implicit Prompt (IP) 包含需要科学推理的术语（如"未成熟的苹果"）；Explicit Prompt (EP) 直接描述正确视觉结果（如"绿色苹果"）；Superficial Prompt (SP) 给出表层关联的错误结果（如"红色苹果"）。IP 测试推理能力，EP 建立渲染上限，SP 提供偏好训练的困难负例
- 设计动机：之前的工作无法区分模型是"不会画"还是"不知道该画什么"。三层结构明确回答了这个问题——实验显示显式 prompt 比隐式高约 35 分，证明瓶颈在推理而非渲染
SciScore 奖励模型:
- 功能：评估生成图像是否正确反映 prompt 隐含的科学原理，超越 GPT-4o 和人类专家
- 核心思路：基于 CLIP-H 微调，训练目标包含两个互补损失。IPA（隐式 prompt 对齐）通过 KL 散度最小化，让隐式 prompt 的嵌入靠近显式图像而非浅层图像：\(\mathcal{L}_{IPA} = KL(p_{txt} || \hat{p}_{txt})\)。IEE（图像编码器增强）在图像侧加入偏好损失，增强对细粒度科学细节（如微妙的颜色和分层模式）的敏感度。总损失 \(\mathcal{L} = \mathcal{L}_{IPA} + \lambda \mathcal{L}_{IEE}\)，\(\lambda=0.25\) 取得最佳平衡
- 设计动机：原始 CLIP 倾向于将隐式 prompt 嵌入到浅层对应物附近而非显式对应物附近，因为表面级共现模式主导了科学语义。需要专门的微调来纠正这种偏差
两阶段对齐框架（SFT + Masked OFT）:
- 功能：将科学知识注入生成模型，提升隐式推理能力
- 核心思路：第一阶段在 Science-T2I 训练集上对 FLUX.1[dev] 做监督微调（SFT with LoRA，2000步），教会模型"科学正确的图像长什么样"。第二阶段用 SciScore 作为奖励信号做在线微调（OFT），采用 DPO 目标函数。关键创新在于主体遮罩策略：用 GroundingDINO 定位科学主体区域，只在该区域内反传梯度，避免无关背景引入噪声
- 设计动机：标准后训练（PPO/DPO）在预训练分布内优化，但模型从未接触过科学现象的图像，纯偏好优化无法教会它不知道的东西。SFT 先提供知识基础，OFT 再优化隐式推理能力。不加遮罩时训练不稳定，因为首选和拒绝图像通常只在科学相关区域不同

损失函数 / 训练策略¶

SFT 阶段使用 Flow Matching 目标函数 \(L_{SFT} = \mathbb{E}\|v_\theta(z,t) - u_t(z|\epsilon)\|_2^2\)。OFT 阶段将 Flow Matching 的确定性 ODE 解释为 SDE，得到高斯策略 \(\pi_\theta(a_t|s_t) = \mathcal{N}(a_t; \mu_\theta(s_t), \sigma_t^2 I)\)，然后用 DPO 对轨迹做偏好优化，并融入主体遮罩。SFT 用 LoRA 微调 2000 步；OFT 每轮采样 32 个 prompt，每个生成两张图，约训练 100 步。

实验关键数据¶

主实验¶

模型	物理	化学	生物	总分
FLUX.2[dev] (最佳)	53.19	53.55	32.50	47.80
Z-Image	26.53	32.98	22.22	26.73
SDXL	16.11	20.92	25.56	19.60
显式 vs 隐式 prompt 平均差距	-	-	-	~35分

SciScore 分类准确率（Science-T2I-S / Science-T2I-C）：

评估器	S-Simple	S-Complex
SciScore	93.14	91.19
人类专家	87.01	86.02
GPT-4o mini + CoT	74.97	77.16
CLIP-H	54.69	59.47

消融实验¶

方法	Science-T2I-S	RI	Science-T2I-C	RI
FLUX.1[dev] 基线	23.56	-	27.26	-
+ SFT	~27	~37%	~29	~23%
+ SFT + OFT (Full)	28.52	53.39%	30.11	38.31%

关键发现¶

所有 18 个 T2I 模型在隐式科学 prompt 下得分均低于 50/100，生物领域最难（无模型超过 33%）
显式 prompt 比隐式高约 35 分，直接证明瓶颈在科学推理而非视觉渲染
Z-Image 视觉质量顶级但科学得分仅 26.73，说明视觉保真度和科学推理能力不相关
SciScore 的失败案例几乎全部集中在主体导向任务（ST），因为需要特定主体的知识（如哪种金属产生什么颜色的火焰）
SFT 是必要的前置步骤——不做 SFT 直接 OFT 无法提升 SciScore
主体遮罩对 OFT 训练稳定性至关重要，不加遮罩时性能不稳定甚至停滞

亮点与洞察¶

三层 prompt 结构的诊断能力：IP/EP/SP 的设计非常巧妙，将一个模糊的"模型不够好"的问题精确定位为"推理能力缺失"。这个方法论可以迁移到任何需要区分"知道 vs 能做到"的评估场景
SciScore 超越人类专家：一个微调的 CLIP 模型在科学判别上超越了有科学学位的人类评估者，说明对抗训练数据的质量可以弥补模型先天知识的不足
主体遮罩的 OFT 策略：用 GroundingDINO 定位科学主体区域做局部梯度更新，避免了图像全局优化带来的噪声——这个策略可推广到任何需要细粒度控制的 RLHF/DPO 微调

局限与展望¶

训练集规模有限（20k 对），可能无法覆盖所有科学领域的长尾知识
SciScore 在主体导向任务上仍有明显不足，对未见过的主体缺乏先验
当前框架以 FLUX 为基础，对其他架构的迁移性有待验证
科学正确性的评估本身依赖 LMM（Qwen3.5-27B），引入了评估器偏差
更深层的物理推理（如流体动力学、复杂光学现象）可能需要更强的训练信号

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性地定义和解决 T2I 的科学推理问题，三层 prompt 设计和两阶段对齐框架都很新颖
实验充分度: ⭐⭐⭐⭐⭐ 评估了 18 个模型，对比 VLM/LMM/人类，消融全面，定性定量兼备
写作质量: ⭐⭐⭐⭐⭐ 论述逻辑严密，问题-诊断-解决的叙事链非常清晰
价值: ⭐⭐⭐⭐⭐ 揭示了当前 T2I 模型的根本性缺陷，数据集+奖励模型+对齐框架对社区贡献很大