跳转至

PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings

会议: ACL 2025
arXiv: 2506.00481
代码: https://github.com/holi-lab/PVP_Personalized_Visual_Persuasion
领域: 多模态VLM
关键词: visual persuasion, personalization, persuasion strategies, psychological characteristics, dataset

一句话总结

构建了首个大规模个性化视觉说服数据集 PVP(28,454 张图像、596 条消息、9 种说服策略、2,521 位标注者的心理特征),并提出说服图像生成和评估两个任务,发现融入观看者的心理特征能显著提升说服图像的生成和评估效果。

研究背景与动机

  1. 领域现状:视觉说服(用视觉元素影响认知和行为)在广告、政治传播等领域至关重要。现有数据集(如 meme 数据集、广告分析数据集)主要关注说服技巧的分类或检测。
  2. 现有痛点:四大局限——(1) 多数数据集缺乏说服力评分不能用于训练说服系统;(2) 聚焦 meme 和符号学需要深层文化知识,不适合日常应用;(3) 主题范围窄(如政治、争议话题);(4) 没有考虑观看者的心理特征对说服效果的影响——同一张图对不同人的说服力不同。
  3. 核心矛盾:说服本质上是个性化的——没有"一刀切"的说服方法。但缺乏将图像说服力与观看者心理特征关联的数据集。
  4. 本文要解决什么? 构建大规模数据集连接图像说服策略、说服力评分和观看者心理特征,并建立个性化视觉说服的基准任务。
  5. 切入角度:基于心理学和传播学理论(计划行为理论、大五人格、Schwartz 价值观、道德基础理论)设计说服策略和标注维度。
  6. 核心 idea 一句话:首个大规模数据集将图像说服策略与 2,521 位标注者的人格/价值观/道德基础关联,支持个性化视觉说服的生成和评估。

方法详解

整体框架

数据集构建 pipeline:消息生成 → 说服策略定义 → 前提生成 → 图像收集(DALLE + Google)→ 说服力评分 → 心理特征问卷。最终提出两个下游任务:(1) 个性化说服图像生成 (2) 个性化说服力自动评估。

关键设计

  1. 9 种说服策略:
  2. 基于计划行为理论和论证理论,定义 5 大类 × 正/负面框架 = 9 种策略:
    • Perceived Persona (正/负):他人如何看待你
    • Internal Emotion (正/负):你自己的情感反应
    • External Emotion (正/负):他人的情感反应
    • Consequence (正/负):行为的正面/负面后果
    • Bandwagon:从众效应(仅正面)
  3. 设计动机:覆盖认知和情感的多个维度,正负框架区分"获益强调"vs"损失强调"。

  4. 多源图像收集:

  5. 做什么:每条消息 × 9 策略 × 3 前提 × 2 来源(DALLE + Google)= 54 张候选图像。
  6. 核心思路:先用 GPT-4o 将前提转为 DALLE prompt 和 Google 搜索词,生成/检索图像后经人工+GPT 双重过滤确保图像能传达目标前提。
  7. 设计动机:DALLE 图像更精确匹配前提(评分略高),Google 图像更自然;两者结合增加多样性。

  8. 标注者心理特征收集:

  9. 做什么:2,521 位标注者完成三套心理量表——BFI-10(大五人格)、PVQ-21(Schwartz 价值观)、MFQ-30(道德基础)。每位标注者还报告是否已有目标行为的习惯。
  10. 核心思路:按性别和年龄段均匀招募,每位标注者仅参与一条消息(54 张图)的评分,避免标注者过度影响。每张图由 4 位不同标注者评分。
  11. 设计动机:心理特征是个性化说服的核心——相同策略对不同人格的人效果不同。

  12. 数据集分析关键发现:

  13. 负面内部情感策略得分最高 (5.83),负面感知人设策略最低 (3.73)
  14. 整体上正面说服策略优于负面策略
  15. 享乐主义者对负面后果策略更敏感 (+0.63 相关)
  16. 神经质高的人对负面内部情感策略更敏感 (+0.57 相关)
  17. DALLE 图像略优于 Google 检索图像

损失函数 / 训练策略

评估器:比较了 GPT-4o、GPT-4o-mini、微调小模型等。发现在 PVP 数据上微调的小模型超过了 GPT 模型。融入心理特征的模型优于不使用心理特征的版本。

实验关键数据

主实验(说服力评估器)

模型 输入方式 使用心理特征 性能
GPT-4o 图像 (多模态) 较好
GPT-4o-mini 图像描述 (纯文本) 较好
GPT-4o 图像 降低
微调小模型 文本 最优

消融实验

配置 关键观察 说明
有 vs 无心理特征 有心理特征更优 个性化信息确实有帮助
DALLE vs Google 图像 DALLE 略优 更精确匹配说服前提
正面 vs 负面策略 正面整体更优 但负面内部情感最优
已有习惯 vs 无习惯 有习惯者评分更高 (5.0 vs 4.3) 认知失调效应

关键发现

  • 心理特征是个性化的关键:加入心理特征后评估和生成都有改善,验证了"一刀切"说服不如个性化。
  • 负面情感策略的"双刃剑"效应:虽然平均得分最高,但对不同人格差异最大——高神经质者敏感,高尽责性者反感。
  • 正面策略更"安全":正面策略的说服力受人格影响较小,适合面向未知受众的场景。
  • 已有习惯的认知失调:已经实践目标行为的人倾向更高评价说服图像,可能是为避免认知失调。

亮点与洞察

  • 首次将心理特征引入视觉说服数据集:之前的数据集只关注图像内容和策略,不考虑"谁在看"。PVP 通过三套量表全面刻画观看者,使个性化研究成为可能。
  • 20 个日常话题的广覆盖:基于美国政府部门覆盖运输、健康、教育等日常领域,比仅关注政治/争议话题的数据集实用性更强。
  • 说服策略 × 人格的交互分析值得深入:如享乐主义与负面后果策略的强正相关、刺激寻求与负面后果的强负相关,揭示了说服的细微心理机制。

局限性 / 可改进方向

  • 标注者全为韩国人,文化多样性限制了跨文化推广。
  • 使用自报说服力评分而非实际行为改变测量,与真实效果可能存在差距。
  • DALLE 生成的图像不可避免地有 AI 痕迹,可能影响说服效果。
  • 每张图仅 4 位标注者评分,标注一致性的统计置信度有限。

相关工作与启发

  • vs Hussain et al. (2017) 广告数据集: 关注广告中的说服技巧识别,但无说服力评分和观看者特征。PVP 提供了标注者心理画像的完整链条。
  • vs Liu et al. (2022): 有说服力评分但仅覆盖堕胎/移民/枪支 3 个争议话题;PVP 覆盖 20 个日常话题,更具通用性。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将心理特征与视觉说服连接,数据集设计有深度
  • 实验充分度: ⭐⭐⭐ 数据分析详尽但生成/评估模型实验较初步
  • 写作质量: ⭐⭐⭐⭐ 理论基础扎实,数据构建流程清晰
  • 价值: ⭐⭐⭐⭐ 为个性化视觉说服研究提供了重要资源