PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings¶

会议: ACL 2025
arXiv: 2506.00481
代码: https://github.com/holi-lab/PVP_Personalized_Visual_Persuasion
领域: 多模态VLM
关键词: visual persuasion, personalization, persuasion strategies, psychological characteristics, dataset

一句话总结¶

构建了首个大规模个性化视觉说服数据集 PVP（28,454 张图像、596 条消息、9 种说服策略、2,521 位标注者的心理特征），并提出说服图像生成和评估两个任务，发现融入观看者的心理特征能显著提升说服图像的生成和评估效果。

研究背景与动机¶

领域现状：视觉说服（用视觉元素影响认知和行为）在广告、政治传播等领域至关重要。现有数据集（如 meme 数据集、广告分析数据集）主要关注说服技巧的分类或检测。
现有痛点：四大局限——(1) 多数数据集缺乏说服力评分不能用于训练说服系统；(2) 聚焦 meme 和符号学需要深层文化知识，不适合日常应用；(3) 主题范围窄（如政治、争议话题）；(4) 没有考虑观看者的心理特征对说服效果的影响——同一张图对不同人的说服力不同。
核心矛盾：说服本质上是个性化的——没有"一刀切"的说服方法。但缺乏将图像说服力与观看者心理特征关联的数据集。
本文要解决什么？ 构建大规模数据集连接图像说服策略、说服力评分和观看者心理特征，并建立个性化视觉说服的基准任务。
切入角度：基于心理学和传播学理论（计划行为理论、大五人格、Schwartz 价值观、道德基础理论）设计说服策略和标注维度。
核心 idea 一句话：首个大规模数据集将图像说服策略与 2,521 位标注者的人格/价值观/道德基础关联，支持个性化视觉说服的生成和评估。

方法详解¶

整体框架¶

数据集构建 pipeline：消息生成 → 说服策略定义 → 前提生成 → 图像收集（DALLE + Google）→ 说服力评分 → 心理特征问卷。最终提出两个下游任务：(1) 个性化说服图像生成 (2) 个性化说服力自动评估。

关键设计¶

9 种说服策略:
基于计划行为理论和论证理论，定义 5 大类 × 正/负面框架 = 9 种策略：
- Perceived Persona (正/负)：他人如何看待你
- Internal Emotion (正/负)：你自己的情感反应
- External Emotion (正/负)：他人的情感反应
- Consequence (正/负)：行为的正面/负面后果
- Bandwagon：从众效应（仅正面）
设计动机：覆盖认知和情感的多个维度，正负框架区分"获益强调"vs"损失强调"。
多源图像收集:
做什么：每条消息 × 9 策略 × 3 前提 × 2 来源（DALLE + Google）= 54 张候选图像。
核心思路：先用 GPT-4o 将前提转为 DALLE prompt 和 Google 搜索词，生成/检索图像后经人工+GPT 双重过滤确保图像能传达目标前提。
设计动机：DALLE 图像更精确匹配前提（评分略高），Google 图像更自然；两者结合增加多样性。
标注者心理特征收集:
做什么：2,521 位标注者完成三套心理量表——BFI-10（大五人格）、PVQ-21（Schwartz 价值观）、MFQ-30（道德基础）。每位标注者还报告是否已有目标行为的习惯。
核心思路：按性别和年龄段均匀招募，每位标注者仅参与一条消息（54 张图）的评分，避免标注者过度影响。每张图由 4 位不同标注者评分。
设计动机：心理特征是个性化说服的核心——相同策略对不同人格的人效果不同。
数据集分析关键发现:
负面内部情感策略得分最高 (5.83)，负面感知人设策略最低 (3.73)
整体上正面说服策略优于负面策略
享乐主义者对负面后果策略更敏感 (+0.63 相关)
神经质高的人对负面内部情感策略更敏感 (+0.57 相关)
DALLE 图像略优于 Google 检索图像

损失函数 / 训练策略¶

评估器：比较了 GPT-4o、GPT-4o-mini、微调小模型等。发现在 PVP 数据上微调的小模型超过了 GPT 模型。融入心理特征的模型优于不使用心理特征的版本。

实验关键数据¶

主实验（说服力评估器）¶

模型	输入方式	使用心理特征	性能
GPT-4o	图像 (多模态)	✓	较好
GPT-4o-mini	图像描述 (纯文本)	✓	较好
GPT-4o	图像	✗	降低
微调小模型	文本	✓	最优

消融实验¶

配置	关键观察	说明
有 vs 无心理特征	有心理特征更优	个性化信息确实有帮助
DALLE vs Google 图像	DALLE 略优	更精确匹配说服前提
正面 vs 负面策略	正面整体更优	但负面内部情感最优
已有习惯 vs 无习惯	有习惯者评分更高 (5.0 vs 4.3)	认知失调效应

关键发现¶

心理特征是个性化的关键：加入心理特征后评估和生成都有改善，验证了"一刀切"说服不如个性化。
负面情感策略的"双刃剑"效应：虽然平均得分最高，但对不同人格差异最大——高神经质者敏感，高尽责性者反感。
正面策略更"安全"：正面策略的说服力受人格影响较小，适合面向未知受众的场景。
已有习惯的认知失调：已经实践目标行为的人倾向更高评价说服图像，可能是为避免认知失调。

亮点与洞察¶

首次将心理特征引入视觉说服数据集：之前的数据集只关注图像内容和策略，不考虑"谁在看"。PVP 通过三套量表全面刻画观看者，使个性化研究成为可能。
20 个日常话题的广覆盖：基于美国政府部门覆盖运输、健康、教育等日常领域，比仅关注政治/争议话题的数据集实用性更强。
说服策略 × 人格的交互分析值得深入：如享乐主义与负面后果策略的强正相关、刺激寻求与负面后果的强负相关，揭示了说服的细微心理机制。

局限性 / 可改进方向¶

标注者全为韩国人，文化多样性限制了跨文化推广。
使用自报说服力评分而非实际行为改变测量，与真实效果可能存在差距。
DALLE 生成的图像不可避免地有 AI 痕迹，可能影响说服效果。
每张图仅 4 位标注者评分，标注一致性的统计置信度有限。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将心理特征与视觉说服连接，数据集设计有深度
实验充分度: ⭐⭐⭐ 数据分析详尽但生成/评估模型实验较初步
写作质量: ⭐⭐⭐⭐ 理论基础扎实，数据构建流程清晰
价值: ⭐⭐⭐⭐ 为个性化视觉说服研究提供了重要资源