跳转至

Daily arXiv

Benchmarking Political Persuasion Risks Ac...

Benchmarking Political Persuasion Risks Across Frontier Large Language Models¶

日期: 2026-03-10
arXiv: 2603.09884
代码: 无
领域: LLM/NLP / AI安全
关键词: LLM persuasion, political persuasion, AI safety, frontier models, benchmark

一句话总结¶

通过两项大规模调查实验（N=19,145）对比 7 个前沿 LLM 的政治说服力，发现现代 LLM 已超越传统人类竞选广告的说服效果；Claude 系列最具说服力，Grok 最弱；信息型提示的效果高度依赖模型选择。

研究背景与动机¶

领域现状: LLM 的政治说服能力引发广泛安全关切，但既有研究多聚焦于早期模型（GPT-3/4 系列），且缺乏与真实竞选广告的直接对比。
现有差距: (i) 2025 年末涌现的前沿模型（Claude 4.5、Gemini 3、GPT-5、Grok 4）在推理能力上有质的飞跃，说服力是否同步提升未知；(ii) 无研究系统性地将 AI 说服力 benchmark 与真人竞选广告对标；(iii) 缺乏数据驱动的说服策略分析方法。
核心贡献: 首次跨 4 家公司、7 个前沿模型进行政治说服力 benchmark，提出无预设的 LLM 辅助会话分析方法来发现说服策略。

方法详解¶

实验设计¶

Study 1（N=12,988，2025年8月）:
- 4 个模型：Claude Sonnet 4、Gemini 2.5 Flash、GPT-4.1、Grok 4
- 2 个政治议题：移民政策（支持方）+ 最低工资（反对方）
- 条件：安慰剂 vs 人类广告 vs AI 聊天机器人
- AI 条件进一步随机分配 Plain/Information 两种提示方式
Study 2（N=6,157，2025年11月）:
- 4 个更新模型：Claude Sonnet 4.5、Gemini 3、GPT-5、Grok 4
- 增加双向说服（支持/反对），弥补 Study 1 的单向局限
策略分析:
- Phase 1：GPT-5 mini 从小批次对话中发现 10 种说服策略
- Phase 2：GPT-5.2 对全部 4,790 段对话进行 1-5 分策略评分

实验关键数据¶

模型说服力排名（一致稳定）¶

排名	模型	说服效果
1	Claude (Sonnet 4/4.5)	最强，~0.19 scale points
2-3	GPT (4.1/5) / Gemini (2.5 Flash/3)	中等，效果相近
4	Grok 4	最弱，但仍超越人类广告

核心发现¶

LLM > 人类广告: 所有 LLM 的平均说服效果（0.203）显著超过人类广告（0.135），p<0.001
信息提示效果因模型而异: 提升 Claude 和 Grok，大幅降低 GPT 的说服力（与 Hackenburg et al. 2025 的结论相反）
说服方向不对称: 所有模型说服偏向民主党立场时效果更强
策略分析: "行动号召"策略关联最大态度转变（0.379），而"引用数据证据"无显著关联（0.007）

10 种发现的说服策略¶

个性化提问、定制回复、具体替代方案和妥协、亲和与肯定、行动号召、协作框架、论证框架、模糊与权衡、引用来源/证据/数字、道德/价值观诉诸

亮点与洞察¶

首次证明 前沿 LLM 的政治说服力已系统性超越真实竞选广告——这是 AI 安全的重要警示
跨模型排名的一致性 令人印象深刻——Claude 始终最强、Grok 最弱，跨议题/立场/实验稳定
"引用数据"无效而"行动号召"最有效 的发现反直觉且有政策意义——信息型提示并非万能
数据驱动的策略发现方法 比预设分类更灵活，是 LLM 辅助社会科学研究的范例
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

Prolific 平台招募的被试可能存在选择偏差
说服方向的不对称可能混杂被试群体差异和实际模型效果
策略与说服效果的关系为相关性而非因果性
未测试 Claude Opus 4.5（2025年11月底发布）
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性 benchmark 前沿 LLM 的政治说服力并与人类广告对标
实验充分度: ⭐⭐⭐⭐⭐ N=19,145、7 个模型、2 个议题、双向说服、策略分析
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设计严谨
价值: ⭐⭐⭐⭐⭐ 对 AI 安全政策制定和民主社会监管有重大参考价值