CAP: Evaluation of Persuasive and Creative Image Generation¶

会议: ICCV 2025
arXiv: 2412.10426
代码: https://aysanaghazadeh.github.io/CAP/
领域: Image Generation
关键词: 广告图像生成, 创意评估, 说服力评估, 文本-图像对齐, 隐式消息

一句话总结¶

针对广告图像生成任务，提出三个新评估指标（创意性、对齐度、说服力），并用LLM扩展隐式消息为显式视觉描述来改善T2I模型的广告生成效果，在人类标注一致性上显著优于CLIPScore等基线指标。

研究背景与动机¶

广告图像的生成是一个未被充分研究的文本到图像（T2I）生成子领域。有效的广告需同时满足三个条件：清晰传达信息、以创意方式呈现、有效影响受众。然而，当前T2I模型（如Stable Diffusion、DALL-E 3）虽然能从详细显式描述生成高质量图像，但面对"隐式文本提示"（即不直接描述图像应包含什么对象，而是描述意图和消息）时，往往只能生成相关但缺乏创意和说服力的图像。

现有评估指标（FID、CLIPScore、VQAScore等）只关注显式文本-图像对齐，无法衡量创意性和说服力。例如，Fig.1中显示Gatorade广告，基线T2I只显示瓶子和罐头，而人类创作的广告包含运动员奔跑的画面和标语。现有指标无法区分这种质量差异。

核心切入点：将修辞学中的说服理论（Aristotle的Pathos/Ethos/Logos）引入计算化评估，并利用LLM的推理能力对广告图像进行多维度的创意和说服力打分。

方法详解¶

整体框架¶

给定广告消息（action-reason格式，如"I should drink Gatorade because it would help me win"），评估生成广告图像的三个维度：对齐度（AIM）、创意性（C_obj）、说服力（P_comp+AIM）。同时提出用LLM扩展隐式消息为显式视觉描述再输入T2I模型的生成策略。

关键设计¶

AIM（Alignment of Image and Message）对齐度指标:
- 功能：评估生成图像与隐式广告消息的语义对齐度
- 核心思路：
- 用MLLM（如InternVL-V2-26B）生成图像描述
- 用CPO（Contrastive Preference Optimization）微调LLM（如LLAMA3-8B），使其能从图像描述推断action-reason声明
- 分别计算生成声明的action和reason与原始消息的语义相似度，加权平均: \(AIM = \frac{Sim(A_{gen}, A_m) + \alpha \cdot Sim(R_{gen}, R_m)}{1+\alpha}\)，\(\alpha=4\)
- 设计动机：直接使用CLIPScore等指标无法处理隐式文本；微调LLM可使其更准确地推断广告的深层含义而非简单的对象匹配
C_obj（创意性指标）:
- 功能：量化生成图像的创意程度
- 核心思路：创意 = 高对齐度 + 低对象相似度（即不只是简单展示消息中提到的对象）
- 公式: \(C_{obj} = \frac{AIM(I_{gen}, AR_m)}{\frac{1}{n}\sum_{obj} Sim(I_{gen}, obj) + 0.01}\)
- 设计动机：有创意的广告应以非典型方式传达消息，而非仅罗列产品图片
P_comp+AIM（说服力指标）:
- 功能：多维度评估广告的说服效果
- 核心思路：结合7个修辞学维度（受众定位AU、利益转化B、诉求类别AP、细节描述E、原创性O、想象力I、综合性S），让LLM对图像描述逐维度打分，取平均后与AIM结合
- 设计动机：单一维度无法捕捉说服力的复杂性，多维度组合像集成模型，各维度的小误差相互抵消

损失函数 / 训练策略¶

AIM中LLM微调使用CPO损失（对比偏好优化），训练数据250张图像，3500个数据点（描述+正确/错误action-reason对），batch size=4，lr=5e-5，3000步。

实验关键数据¶

主实验¶

指标	与人类标注一致性（Krippendorff's Alpha）
CLIPScore	0.17
VQAScore	0.31
ImageReward	0.11
AIM (零样本LLM)	0.18
AIM (InternVL+LLAMA3, 微调)	0.68
人类标注者间一致性	0.86

LLM扩展对T2I生成的改善（InternVL+LLAMA3+AuraFlow）:

配置	AIM(COM)	C_obj(COM)	P_c+A(COM)	AIM(PSA)	C_obj(PSA)	P_c+A(PSA)
I_AR (直接)	0.50	2.12	0.64	0.31	1.36	0.42
I_LLAMA3 (扩展)	0.53	2.25	0.70	0.43	1.87	0.60
I_QwenLM (扩展)	0.55	2.34	0.59	0.48	2.05	0.54

消融实验¶

指标配置	与人类在COM广告的一致性	与人类在PSA广告的一致性
C_LLM（直接问LLM创意度）	-0.03	0.15
C_obj（提出的创意指标）	0.57	0.53
P_LLM（直接问LLM说服力）	0.27	0.26
P_comp（多组件无AIM）	0.83	0.54
P_comp+AIM（完整说服力）	0.85	0.75
人类标注者间一致性	0.80	0.56

说服力指标P_comp+AIM在商业广告上的人-AI一致性（0.85）甚至超过了人-人一致性（0.80）。

关键发现¶

PSA（公益广告）比商业广告更难生成和评估，因为其消息更隐式
T2I模型在隐式提示下严重缺乏创意和说服力
简单的LLM扩展策略在PSA广告上改善尤其显著（AIM提升39%，创意性提升38%，说服力提升43%）
多组件说服力评估优于直接让LLM打分，因为子问题引导了更细粒度的推理

亮点与洞察¶

将修辞学理论（Pathos/Ethos/Logos）引入计算化评估，跨学科思维令人耳目一新
AIM指标的设计思路巧妙：先让LLM理解图像，再反推消息，最后与原始消息对比
人-AI一致性超过人-人一致性的结果说明多组件集成评估的优势
LLM扩展策略简单但极其有效，揭示了T2I模型在理解隐式意图方面的根本缺陷

局限与展望¶

创意性指标C_obj与人类一致性仍有提升空间（0.54 vs 0.73人-人一致性）
依赖PittAd数据集，广告类型和消息格式有限
LLM扩展策略虽然有效但偏向文字描述，无法捕捉纯视觉创意
未考虑文化差异对广告创意和说服力感知的影响
评估流程涉及多个模型串联（MLLM+LLM+CLIP），计算开销大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出广告图像生成的创意和说服力计算评估指标，问题定义新
实验充分度: ⭐⭐⭐⭐ 多种MLLM/LLM/T2I组合 + 人类标注实验 + 商业/PSA分组分析
写作质量: ⭐⭐⭐⭐ 论文结构清晰，示例直观，但公式符号较多需要仔细阅读
价值: ⭐⭐⭐⭐ 为广告和创意内容生成提供了有价值的评估工具和改进方向