IDEA-Bench: How Far are Generative Models from Professional Designing?¶

会议: CVPR 2025
arXiv: 2412.11767
代码: https://github.com/ali-vilab/IDEA-Bench
领域: image_generation
关键词: benchmark, professional design, image generation, evaluation, MLLM, visual effects, storyboard

一句话总结¶

提出首个面向专业级图像设计的综合基准 IDEA-Bench，涵盖 100 个真实设计任务（海报、绘本、字体、特效等）和 5 种输入输出模式，揭示当前最强模型仅获 22.48/100 分，距离专业设计仍有巨大鸿沟。

研究背景与动机¶

领域现状: DALL-E 3、FLUX-1 等 T2I 模型在学术基准上表现优异，每日吸引百万用户。GenEval、DreamBooth 等基准覆盖了基本的文生图和单图编辑评估。

现有痛点: (1) 现有基准仅关注孤立的学术任务（如 T2I 对齐、简单编辑），与真实专业设计需求脱节；(2) 提示词过短（平均<11词），远低于专业设计师使用的长详细指令；(3) 缺乏多图输入/输出的评估维度；(4) FID/CLIPScore 等传统指标无法捕捉审美、上下文和多模态整合的细微差异。

核心矛盾: 专业设计师仍然依赖 Photoshop 等传统工具，说明生成模型在处理复杂多元的专业任务上能力严重不足，但缺乏系统性的评估框架来量化这种差距。

本文切入角度: 从真实设计平台和专业设计师处收集任务，按模型能力层级分类，建立多层次评估体系。

方法详解¶

整体框架¶

任务收集: 从互联网设计平台和专业设计师处获取 100 个代表性任务
分类体系: 按输入/输出模式分 5 大类 — T2I、I2I、Is2I、T2Is、I(s)2Is
标注流程: GPT-4o 生成任务定义和提示，人工设计 6 道分层评估题（基础→质量→细节）
评估: 人工评估（全集）+ MLLM 自动评估（18任务子集 IDEA-Bench-mini）

关键设计¶

1. 五级任务分类体系 - T2I（文生图）: 11 个任务，含海报、名片、游戏 UI、LOGO 等长提示场景（平均 138.68 词，vs 现有基准<11词） - I2I（图生图）: 包装渲染、图片修图、风格迁移、打光调整等 13 个任务 - Is2I（多图生图）: 品牌周边生成、角色融合等多参考图输入任务 - T2Is（文生多图）: 多视角生成、绘本创作等需要一致性的多图输出 - I(s)2Is（多图生多图）: 分镜设计、角色集生成等最复杂的任务 - 设计动机: 随着统一生成模型的发展，需要涵盖从简单到复杂的完整能力谱。

2. 分层二值评估体系 - 功能: 每个 case 6 道二值判定题（0/1），分 3 层：基础任务理解(Q1-2) → 完成质量(Q3-4) → 细节审美(Q5-6)。 - 核心规则: 层级依赖 — 如果低层未满分，高层自动为 0 分。 - 设计动机: 优先考察任务完成度而非审美，符合专业设计标准（先做对再做美）。

3. MLLM 自动评估（IDEA-Bench-mini） - 功能: 在 18 个代表性任务上使用 Gemini 1.5 Pro 自动评分，每个 case 评 3 次取平均。 - 核心思路: 针对每个 case 定制评估问题（而非共享），并通过人工迭代校准使 MLLM 评分与人工一致。 - 设计动机: 解决 MLLM 对图像顺序敏感、多图理解不可靠等问题。

提示词策略¶

对不支持多图生成的模型（如 FLUX-1、SD3），用 GPT-4o 将多模态输入重述为每张图的独立提示，使基础 T2I 模型也能参与多图生成任务的评测。

实验关键数据¶

主实验 — 全类别得分¶

模型	T2I	I2I	Is2I	T2Is	I(s)2Is	Avg
FLUX-1†	46.06	12.13	4.89	20.15	29.17	22.48
SD3†	24.04	10.79	4.69	21.59	13.06	14.83
DALL-E 3†	24.34	6.95	5.27	14.36	14.44	13.07
OmniGen†	21.41	8.17	2.77	23.52	21.39	15.45
Emu2†	17.98	7.05	8.98	15.53	12.78	12.46
Emu2 (原生)	17.98	7.05	8.98	–	–	6.81
Anole (7B)	0.00	0.64	0.00	1.74	0.00	0.48

（†表示使用 GPT-4o 重述提示词适配所有任务）

T2I 子任务¶

模型	建筑	名片	游戏UI	海报	Avg
FLUX-1	100	38.89	5.56	56.67	46.06
DALL-E 3	22.22	0	0	23.33	24.34
Anole	0	0	0	0	0

关键发现¶

专业设计能力严重不足: 最强模型 FLUX-1 仅获 22.48 分，距离及格线（60分）差异巨大。
通用模型 vs 专用模型的反转: 最优通用模型 Emu2 仅 6.81 分，不如经过提示重述的 T2I 模型。
多图生成是最大短板: Is2I 类别所有模型得分 < 9 分，说明多参考图理解几乎不可用。
FLUX-1 在 T2I 上一枝独秀: 在纯文本任务（如建筑风格 100 分）表现出色，但图像引导任务急剧下降。
Anole 几乎全零: 多模态交错生成模型在专业设计任务上完全不可用。
提示长度对模型是挑战: IDEA-Bench 平均提示长度 138.68 词，远超现有基准的 <11 词，暴露了长提示遵循能力的不足。

亮点与洞察¶

首次系统性地将专业设计任务引入生成模型评估，填补了学术基准与实际需求的鸿沟
五级任务分类 + 分层二值评估的设计方法论值得其他基准借鉴
通过 GPT-4o 提示重述使基础 T2I 模型也能参与多图任务，扩大了可评估模型范围
揭示了一个重要观察：生成模型在"做对"任务前就已失败，审美提升是次要问题
MLLM 自动评估 + 人工校准的闭环方案具有实用性

局限与展望¶

100 个任务中许多对现有模型过难，导致大量 0 分，区分度不够
人工评估主观性仍然存在，特别是 Q3-6 的质量和审美判断
MLLM 自动评估仅覆盖 18 个子任务，覆盖率需扩大
缺乏对专业设计师的 human baseline 分数，难以量化人机差距
分层评估的严格层级依赖可能过于惩罚小错误

评分¶

⭐⭐⭐⭐ — 首个面向专业设计的系统性基准，任务设计精心、评估体系合理，对领域发展具有重要指导意义；但部分任务对现有模型难度过高，导致评分缺乏区分度。