A3: Towards Advertising Aesthetic Assessment¶

会议: CVPR 2026
arXiv: 2603.24037
代码: https://github.com/euleryuan/A3-Align (有)
领域: 多模态VLM
关键词: 广告美学评估, 多模态大语言模型, AIDA模型, Chain-of-Thought, GRPO

一句话总结¶

提出A3框架，包含理论驱动的三阶段广告美学评估范式A3-Law（感知注意力→形式兴趣→欲望影响）、12万条标注数据集A3-Dataset、经SFT+GRPO对齐的模型A3-Align以及评测基准A3-Bench，在广告美学自动评估上超越现有MLLM。

研究背景与动机¶

领域现状：广告图片对商业转化率至关重要，但目前的评估方法主要依赖主观人工评分，缺乏可扩展性、标准化准则和可解释性。自动化系统多为简单的阈值过滤，无法提供诊断性反馈。

现有痛点：MLLM虽有强大的视觉-语言理解能力，但在广告美学评估上存在三个问题：(1) 仅做一步整体评分，忽略人类渐进式认知过程；(2) 输出不稳定、对prompt敏感；(3) 推理过程与最终判断频繁不一致。

核心矛盾：广告美学评估涉及从底层感知（图像质量）到高层认知（情感唤起和说服力）的多层次判断，但现有方法缺乏将抽象理论转化为可执行评估框架的方法论。

切入角度：借鉴经典AIDA营销模型（注意力→兴趣→欲望→行动），构建分阶段的广告美学评估框架。

核心idea：将广告美学评估分解为三个层级（感知注意力→形式兴趣→欲望影响），每层有明确的理论依据和可操作的评估规则，配合CoT引导的数据集和GRPO对齐训练。

方法详解¶

整体框架¶

A3包含四个组件：(1) A3-Law理论范式定义三阶段评估规则；(2) A3-Dataset包含30K广告图片和120K instruction-response对；(3) A3-Align通过SFT+GRPO训练对齐模型；(4) A3-Bench评测基准。

关键设计¶

A3-Law：三阶段层级范式:
- 感知注意力(Perceptual Attention)：评估图像信号能否吸引注意力。基于信号检测理论，包含三条规则：图像保真度（清晰无失真）、整合真实感（光照/阴影/透视一致）、专业精细度（无伪影/细节清晰）。理论基础：信息需通过生理阈值才能进入高层认知
- 形式兴趣(Formal Interest)：评估色彩和空间布局能否唤起兴趣。包含颜色构造（色调适应性+色彩和谐度，用Hasler指标量化）和空间构造（布局适应性，层级/焦点/安全区域）。理论基础：格式塔心理学的知觉分组机制
- 欲望影响(Desire Impact)：评估图像的语义价值和情感价值。包含文案语调、促销图标识别（目标检测）、美学属性（直觉视觉愉悦）、广告属性（品牌情感连接与说服力）。理论基础：符号学+情感评价理论
A3-Dataset构建:
- 功能：从30K广告图片生成120K instruction-response对
- 核心思路：两阶段流程——人工阶段（图片收集、A3-Law规则标注、质量审核，客观指标精度>0.93，IoU>0.92，主观SRCC>0.85）→模型增强阶段（MLLM生成CoT推理链，5人专家组多数投票验证，整体通过率>85%迭代优化）
- 设计动机：结合人工标注的可靠性和LLM生成CoT的可扩展性
A3-Align训练:
- 功能：使MLLM学会A3-Law规则并产生结构化输出
- 核心思路：SFT阶段学习规则、格式、工具使用和CoT；GRPO阶段用多信号奖励优化——通用奖励（格式奖励 \(R_{format}\)、非重复奖励 \(R_{nonrep}\)）+ 规则特异奖励（准确度 \(R_{acc}\)、工具使用 \(R_{tool}\)、IoU奖励 \(R_{IoU}\)、连续分数奖励 \(R_{score} = \exp(-\frac{(s-\hat{s})^2}{2\sigma^2})\)）
- 设计动机：SFT提供结构基础，GRPO进一步校准行为形式、任务准确性、证据基础和主观价值对齐
工具调用机制:
- 三个轻量分析工具：色调分析工具（色调适应性判断）、色彩和谐度量化（Hasler指数）、DeepSeek-OCR（文案语调评估）
- 工具输出作为辅助证据集成到推理链中，决策不被工具机械决定

损失函数 / 训练策略¶

总奖励归一化加权：\(R_{total} = \frac{\sum_{i \in \mathcal{A}} \alpha_i R_i}{\sum_{i \in \mathcal{A}} \alpha_i}\)，根据当前样本类型激活不同奖励子集。

实验关键数据¶

主实验（A3-Bench各规则准确度）¶

模型	Image Fidelity	Integration Realism	Color Harmonization	Layout Adaptability	Aesthetic SRCC
Qwen3-VL-8B	0.454	0.491	0.444	0.472	0.564
Gemma-3-27B	0.648	0.574	0.583	0.694	0.677
GPT-4o	-	-	-	-	-
A3-Align	最优	最优	最优	最优	最优

（完整10个维度的评估中，A3-Align在几乎所有规则上显著超越开源和闭源MLLM。）

消融实验（训练策略）¶

配置	Binary Rules Avg Acc	Aesthetic SRCC	Advertising SRCC
仅SFT	基线	基线	基线
SFT + GRPO (无工具)	+提升	+提升	+提升
SFT + GRPO (全部)	最优	最优	最优

关键发现¶

即使是闭源最强模型（如GPT-4o-thinking），在A3-Law的层级评估上也表现不佳，证明了领域对齐的必要性
GRPO阶段的多信号奖励相比仅SFT显著提升各维度性能
工具调用机制对色彩和文案评估有明确帮助
A3-Align在实际广告选择和诊断性批评两个下游任务上展现了强实用价值

亮点与洞察¶

理论驱动的评估框架：将AIDA营销理论转化为可执行的三阶段计算评估范式，是将刻的认知心理学理论工程化落地的好例子。这种"理论→范式→数据→模型→评测"的完整方法论可迁移到其他主观评价任务
CoT + GRPO的对齐策略：先用SFT学结构和规则，再用GRPO的多信号奖励精细校准，这种范式对任何需要LLM对齐特定领域评估标准的场景都有参考价值
工具增强推理：让模型在推理链中调用量化工具（色彩分析、OCR），将主观判断建立在客观测量基础上

局限与展望¶

A3-Law的Desire Impact阶段定位为文化普适性框架，但实际上广告美学高度依赖文化背景，跨文化适应有待探索
当前仅处理静态广告图片，视频广告和交互式广告的评估未涉及
数据集30K图片在广告领域多样性上可能仍有限，特定垂直品类（如奢侈品、快消）可能需要更细粒度的规则
连续分数的高斯奖励函数中 \(\sigma\) 的选择对训练稳定性和精度有影响，需进一步分析

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化广告美学评估框架，将理论→数据→模型→评测完整连接
实验充分度: ⭐⭐⭐⭐ 多模型对比、下游任务验证，但消融可更详细
写作质量: ⭐⭐⭐⭐ 框架描述清晰，但内容较多导致部分细节需看附录
价值: ⭐⭐⭐⭐ 对广告行业有实际应用价值，但领域相对小众