Are Large Language Models Sensitive to the Motives Behind Communication?¶
会议: NeurIPS 2025
arXiv: 2510.19687
代码: 有
领域: LLM Agent / 认知科学
关键词: 动机警觉, LLM评估, 社会认知, 偏见信息源, 赞助广告
一句话总结¶
系统评估 LLM 对通信动机的敏感性(motivational vigilance)——在控制实验中 LLM 能像人类一样折扣有偏见信源的建议(与理性模型相关系数 r>0.78),但在真实场景(YouTube 赞助广告)中表现大幅下降(r<0.2),通过简单的 prompt steering 可部分恢复。
研究背景与动机¶
- 领域现状:LLM 处理的信息大部分是人类有目的产生的(观点文章、社交媒体、广告),但 LLM 是否能像人类一样识别信息背后的动机?
- 现有痛点:LLM 已知存在越狱、谄媚等问题,暗示它们对信息源的动机不够警觉。但缺乏系统评估。
- 核心矛盾:LLM 需要遵循指令(helpfulness),但也需要对有偏见的输入保持警觉(vigilance)——二者可能冲突。
- 切入角度:用认知科学的理性模型作为基准,评估 LLM 在三种实验范式中的动机警觉能力。
- 核心idea一句话:LLM 有基本的动机敏感性,但从实验室到真实环境,额外的上下文信息会干扰这种能力。
方法详解¶
三种评估范式¶
-
实验1:有意 vs 偶然信息:LLM 是否区分刻意建议和无意观察到的信息?结果:能区分,且行为符合人类模式
-
实验2:校准信任度:改变信源的善意程度和利益冲突,LLM 是否相应调整信任?
- 非推理模型(GPT-4o等):与人类高度一致(r>0.9),与理性模型一致(r>0.78)
-
推理模型(o1等):反而更差(r∈[0.32,0.72]),可能因为过度分析
-
实验3:YouTube 赞助广告:300 个真实赞助广告,LLM 能否折扣赞助内容?
- 表现大幅下降(r<0.2)
- 原因:噪声上下文分散了对动机线索的注意力
- Prompt steering 部分恢复
实验关键数据¶
实验2:结构化场景¶
| 模型类型 | vs 人类数据 (r) | vs 理性模型 (r) |
|---|---|---|
| 非推理LLM (GPT-4o) | >0.9 | >0.78 |
| 推理LLM (o1等) | 0.64-0.87 | 0.32-0.72 |
实验3:真实赞助广告¶
| 条件 | vs 理性模型 (r) |
|---|---|
| 无 steering | <0.2 |
| 有 vigilance steering | 显著提升 |
关键发现¶
- LLM 有基本的动机敏感性,但在嘈杂真实环境中失效
- 推理模型反而不如非推理模型——过度思考可能破坏直觉判断
- 简单的 prompt intervention 能恢复部分能力
亮点与洞察¶
- 用认知科学框架评估LLM社会认知的方法论值得推广
- 从控制实验到真实环境的"能力落差"是重要发现
- 对LLM agent在信息筛选(如购物助手、新闻摘要)场景的安全性有直接警示
局限性 / 可改进方向¶
- 理性模型本身可能不完美
- 仅测试英语和西方文化背景的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 认知科学+LLM评估的跨学科研究
- 实验充分度: ⭐⭐⭐⭐⭐ 三种递进范式×多模型×300真实广告
- 写作质量: ⭐⭐⭐⭐⭐ 实验设计精巧,叙述清晰
- 价值: ⭐⭐⭐⭐⭐ 对LLM agent安全部署有重要启示