PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings¶
会议: ACL 2025
arXiv: 2506.00481
代码: https://github.com/holi-lab/PVP_Personalized_Visual_Persuasion
领域: 多模态VLM
关键词: visual persuasion, personalization, persuasion strategies, psychological characteristics, dataset
一句话总结¶
构建了首个大规模个性化视觉说服数据集 PVP(28,454 张图像、596 条消息、9 种说服策略、2,521 位标注者的心理特征),并提出说服图像生成和评估两个任务,发现融入观看者的心理特征能显著提升说服图像的生成和评估效果。
研究背景与动机¶
- 领域现状:视觉说服(用视觉元素影响认知和行为)在广告、政治传播等领域至关重要。现有数据集(如 meme 数据集、广告分析数据集)主要关注说服技巧的分类或检测。
- 现有痛点:四大局限——(1) 多数数据集缺乏说服力评分不能用于训练说服系统;(2) 聚焦 meme 和符号学需要深层文化知识,不适合日常应用;(3) 主题范围窄(如政治、争议话题);(4) 没有考虑观看者的心理特征对说服效果的影响——同一张图对不同人的说服力不同。
- 核心矛盾:说服本质上是个性化的——没有"一刀切"的说服方法。但缺乏将图像说服力与观看者心理特征关联的数据集。
- 本文要解决什么? 构建大规模数据集连接图像说服策略、说服力评分和观看者心理特征,并建立个性化视觉说服的基准任务。
- 切入角度:基于心理学和传播学理论(计划行为理论、大五人格、Schwartz 价值观、道德基础理论)设计说服策略和标注维度。
- 核心 idea 一句话:首个大规模数据集将图像说服策略与 2,521 位标注者的人格/价值观/道德基础关联,支持个性化视觉说服的生成和评估。
方法详解¶
整体框架¶
数据集构建 pipeline:消息生成 → 说服策略定义 → 前提生成 → 图像收集(DALLE + Google)→ 说服力评分 → 心理特征问卷。最终提出两个下游任务:(1) 个性化说服图像生成 (2) 个性化说服力自动评估。
关键设计¶
- 9 种说服策略:
- 基于计划行为理论和论证理论,定义 5 大类 × 正/负面框架 = 9 种策略:
- Perceived Persona (正/负):他人如何看待你
- Internal Emotion (正/负):你自己的情感反应
- External Emotion (正/负):他人的情感反应
- Consequence (正/负):行为的正面/负面后果
- Bandwagon:从众效应(仅正面)
-
设计动机:覆盖认知和情感的多个维度,正负框架区分"获益强调"vs"损失强调"。
-
多源图像收集:
- 做什么:每条消息 × 9 策略 × 3 前提 × 2 来源(DALLE + Google)= 54 张候选图像。
- 核心思路:先用 GPT-4o 将前提转为 DALLE prompt 和 Google 搜索词,生成/检索图像后经人工+GPT 双重过滤确保图像能传达目标前提。
-
设计动机:DALLE 图像更精确匹配前提(评分略高),Google 图像更自然;两者结合增加多样性。
-
标注者心理特征收集:
- 做什么:2,521 位标注者完成三套心理量表——BFI-10(大五人格)、PVQ-21(Schwartz 价值观)、MFQ-30(道德基础)。每位标注者还报告是否已有目标行为的习惯。
- 核心思路:按性别和年龄段均匀招募,每位标注者仅参与一条消息(54 张图)的评分,避免标注者过度影响。每张图由 4 位不同标注者评分。
-
设计动机:心理特征是个性化说服的核心——相同策略对不同人格的人效果不同。
-
数据集分析关键发现:
- 负面内部情感策略得分最高 (5.83),负面感知人设策略最低 (3.73)
- 整体上正面说服策略优于负面策略
- 享乐主义者对负面后果策略更敏感 (+0.63 相关)
- 神经质高的人对负面内部情感策略更敏感 (+0.57 相关)
- DALLE 图像略优于 Google 检索图像
损失函数 / 训练策略¶
评估器:比较了 GPT-4o、GPT-4o-mini、微调小模型等。发现在 PVP 数据上微调的小模型超过了 GPT 模型。融入心理特征的模型优于不使用心理特征的版本。
实验关键数据¶
主实验(说服力评估器)¶
| 模型 | 输入方式 | 使用心理特征 | 性能 |
|---|---|---|---|
| GPT-4o | 图像 (多模态) | ✓ | 较好 |
| GPT-4o-mini | 图像描述 (纯文本) | ✓ | 较好 |
| GPT-4o | 图像 | ✗ | 降低 |
| 微调小模型 | 文本 | ✓ | 最优 |
消融实验¶
| 配置 | 关键观察 | 说明 |
|---|---|---|
| 有 vs 无心理特征 | 有心理特征更优 | 个性化信息确实有帮助 |
| DALLE vs Google 图像 | DALLE 略优 | 更精确匹配说服前提 |
| 正面 vs 负面策略 | 正面整体更优 | 但负面内部情感最优 |
| 已有习惯 vs 无习惯 | 有习惯者评分更高 (5.0 vs 4.3) | 认知失调效应 |
关键发现¶
- 心理特征是个性化的关键:加入心理特征后评估和生成都有改善,验证了"一刀切"说服不如个性化。
- 负面情感策略的"双刃剑"效应:虽然平均得分最高,但对不同人格差异最大——高神经质者敏感,高尽责性者反感。
- 正面策略更"安全":正面策略的说服力受人格影响较小,适合面向未知受众的场景。
- 已有习惯的认知失调:已经实践目标行为的人倾向更高评价说服图像,可能是为避免认知失调。
亮点与洞察¶
- 首次将心理特征引入视觉说服数据集:之前的数据集只关注图像内容和策略,不考虑"谁在看"。PVP 通过三套量表全面刻画观看者,使个性化研究成为可能。
- 20 个日常话题的广覆盖:基于美国政府部门覆盖运输、健康、教育等日常领域,比仅关注政治/争议话题的数据集实用性更强。
- 说服策略 × 人格的交互分析值得深入:如享乐主义与负面后果策略的强正相关、刺激寻求与负面后果的强负相关,揭示了说服的细微心理机制。
局限性 / 可改进方向¶
- 标注者全为韩国人,文化多样性限制了跨文化推广。
- 使用自报说服力评分而非实际行为改变测量,与真实效果可能存在差距。
- DALLE 生成的图像不可避免地有 AI 痕迹,可能影响说服效果。
- 每张图仅 4 位标注者评分,标注一致性的统计置信度有限。
相关工作与启发¶
- vs Hussain et al. (2017) 广告数据集: 关注广告中的说服技巧识别,但无说服力评分和观看者特征。PVP 提供了标注者心理画像的完整链条。
- vs Liu et al. (2022): 有说服力评分但仅覆盖堕胎/移民/枪支 3 个争议话题;PVP 覆盖 20 个日常话题,更具通用性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将心理特征与视觉说服连接,数据集设计有深度
- 实验充分度: ⭐⭐⭐ 数据分析详尽但生成/评估模型实验较初步
- 写作质量: ⭐⭐⭐⭐ 理论基础扎实,数据构建流程清晰
- 价值: ⭐⭐⭐⭐ 为个性化视觉说服研究提供了重要资源