A³: Towards Advertising Aesthetic Assessment¶

日期: 2026-03-25
arXiv: 2603.24037
代码: https://github.com/euleryuan/A3-Align
领域: 多模态/VLM / 图像美学评估 / 广告
关键词: advertising aesthetics, AIDA model, MLLM, CoT reasoning, GRPO, benchmark

一句话总结¶

提出 A³ 广告美学评估框架，包含理论驱动的三阶段评估范式 A³-Law（感知注意→形式兴趣→欲望影响）+ 30K 图像 120K 标注的 A³-Dataset + 经 SFT+GRPO 训练的 A³-Align 模型 + A³-Bench 基准，在广告美学评估上超越现有 MLLM。

研究背景与动机¶

领域现状：广告图像品质直接影响转化率和品牌价值，但当前评估依赖主观评分（不可扩展、无标准化）或简单阈值过滤（无法提供诊断性反馈）。
现有痛点：MLLM 虽有强大视觉理解能力，但在广告美学评估中存在：只做一步整体打分忽略渐进认知过程、输出对 prompt 敏感不稳定、推理与最终输出不对齐。
核心矛盾：广告美学是多维度渐进式认知过程 vs 现有方法的一步式评估。
核心 idea：受 AIDA 营销模型启发，将广告美学分解为三个层次化阶段——感知注意（信号质量）→ 形式兴趣（色彩布局组织）→ 欲望影响（语义价值+情感价值），构建配套的数据集+模型+基准。

方法详解¶

A³-Law 三阶段评估范式¶

Perceptual Attention（感知注意）：评估图像信号在生理层面能否吸引注意
- Image Fidelity：清晰度和失真程度
- Integration Realism：光照/色温/阴影/透视的物理一致性
- Professional Polish：无伪影、纹理清晰、符合商业类别原型
Formal Interest（形式兴趣）：评估色彩和空间布局能否引起兴趣
- Color Construction：Hue Adaptability（色相适配性）+ Color Harmonization（调色板协）
- Spatial Construction：Layout Adaptability（布局层次、焦点清晰、裁剪安全区）
Desire Impact（欲望影响）：评估说服力
- Copywriting Tone（文案语气）+ Promotional Iconography（促销图标）
- Aesthetic Attribute（视觉愉悦感）+ Advertising Attribute（品牌情感连接+说服力期望）

A³-Align 模型训练¶

SFT 阶段：在 A³-Dataset 上学习 CoT 推理格式、规则判断、工具调用。训练数据包含逐步推理链示范——先分析感知注意维度，再评估形式兴趣，最后评判欲望影响，确保模型学会渐进式评估流程
GRPO 阶段：多源奖励设计精细——
Format Reward：格式正确性（遵循三阶段输出结构）
Non-Repeat Reward：避免重复空洞的评论
Accuracy Reward：8 个二分类规则的判断匹配度
IoU Reward：促销图标检测的空间准确性
Tool Utilization Reward：3 个规则需要工具调用（色相分析、色彩和谐度计算、OCR 文案提取）
Continuous Score Reward：连续评分维度用高斯奖励函数
两步训练的必要性：纯 SFT 的模型在推理过程中容易出现「结论与推理不对齐」（推理说好但打分低），GRPO 校正了这种不一致性

A³-Dataset¶

30K 广告图像 + 120K 指令-响应对
人工标注（准确率>93%, IoU>0.92, SRCC>0.85 质量门控）
MLLM 生成 CoT + 专家审核（5 人多数投票，接受率>85%）
3 个工具调用子集（色相分析、色彩和谐度计算、OCR）

实验关键数据¶

主实验（A³-Bench）¶

模型类型	感知注意	形式兴趣	欲望影响
开源 MLLM (Qwen, InternVL)	中等	较弱	较弱
闭源 MLLM (GPT-5.1, Gemini)	较好	中等	中等
A³-Align	最优	最优	最优

A³-Align 在所有三个阶段的所有子指标上全面超越现有 MLLM。

关键发现¶

现有 MLLM 在广告专业评估上普遍不佳——缺乏领域对齐
三阶段渐进式评估比一步整体打分更可靠稳定
CoT + 工具调用显著提升规则遵循和评估一致性
在广告选品和处方式批评两个下游任务上表现出强实用性

亮点与洞察¶

将营销理论（AIDA）操作化为 AI 可执行的评估框架的思路有启发性：抽象理论→可量化规则→可训练目标。这种「领域理论驱动」的方法论可以迁移到其他领域（如教育内容评估、顶会论文审稿）
多源奖励设计照顾了不同规则类型（二分类/检测/连续评分/工具调用），比统一奖励更精细。特别是 Tool Utilization Reward 鼓励模型主动调用外部工具（色相分析器、OCR）而非纯靠内部推理，提升了规则遵循度
框架的模块化好：A³-Law 可独立于 A³-Align 使用，数据集和基准有独立价值
SFT+GRPO 两步训练的必要性：纯 SFT 容易出现「推理说好但打分低」的不对齐问题，GRPO 通过多源奖励校正，这个经验对其他 CoT 式评估任务有参考价值
30K 图像 120K 标注的数据集质量控制：人工标注准确率>93%、IoU>0.92、SRCC>0.85 的质量门控确保了数据可靠性

局限性 / 可改进方向¶

聚焦通用商业美学，未做文化特异性校准（中国/西方/中东审美差异显著）
30K 图像规模对 VLM 微调来说不大，数据多样性可能不足
工具调用只覆盖 3 个规则，其他规则仍纯靠模型内部推理——扩展更多工具可能进一步提升
未处理视频广告，仅限静态图像广告
GRPO 训练中的多源奖励权重需要精心调参，可能对不同广告类型敏感
GRPO 训练中的多源奖励权重需要精心调参，可能对不同广告类型敏感

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化的广告美学评估框架，理论-数据-模型-基准四位一体
实验充分度: ⭐⭐⭐⭐ 多模型对比 + 下游任务验证 + 人工质量控制，评估体系完善
写作质量: ⭐⭐⭐⭐ 理论基础扎实，框架设计系统
价值: ⭐⭐⭐⭐ 开源数据集/模型/基准，对广告行业有直接应用价值