跳转至

Are Large Language Models Sensitive to the Motives Behind Communication?

会议: NeurIPS 2025
arXiv: 2510.19687
代码: 有
领域: LLM Agent / 认知科学
关键词: 动机警觉, LLM评估, 社会认知, 偏见信息源, 赞助广告

一句话总结

系统评估 LLM 对通信动机的敏感性(motivational vigilance)——在控制实验中 LLM 能像人类一样折扣有偏见信源的建议(与理性模型相关系数 r>0.78),但在真实场景(YouTube 赞助广告)中表现大幅下降(r<0.2),通过简单的 prompt steering 可部分恢复。

研究背景与动机

  1. 领域现状:LLM 处理的信息大部分是人类有目的产生的(观点文章、社交媒体、广告),但 LLM 是否能像人类一样识别信息背后的动机?
  2. 现有痛点:LLM 已知存在越狱、谄媚等问题,暗示它们对信息源的动机不够警觉。但缺乏系统评估。
  3. 核心矛盾:LLM 需要遵循指令(helpfulness),但也需要对有偏见的输入保持警觉(vigilance)——二者可能冲突。
  4. 切入角度:用认知科学的理性模型作为基准,评估 LLM 在三种实验范式中的动机警觉能力。
  5. 核心idea一句话:LLM 有基本的动机敏感性,但从实验室到真实环境,额外的上下文信息会干扰这种能力。

方法详解

三种评估范式

  1. 实验1:有意 vs 偶然信息:LLM 是否区分刻意建议和无意观察到的信息?结果:能区分,且行为符合人类模式

  2. 实验2:校准信任度:改变信源的善意程度和利益冲突,LLM 是否相应调整信任?

  3. 非推理模型(GPT-4o等):与人类高度一致(r>0.9),与理性模型一致(r>0.78)
  4. 推理模型(o1等):反而更差(r∈[0.32,0.72]),可能因为过度分析

  5. 实验3:YouTube 赞助广告:300 个真实赞助广告,LLM 能否折扣赞助内容?

  6. 表现大幅下降(r<0.2)
  7. 原因:噪声上下文分散了对动机线索的注意力
  8. Prompt steering 部分恢复

实验关键数据

实验2:结构化场景

模型类型 vs 人类数据 (r) vs 理性模型 (r)
非推理LLM (GPT-4o) >0.9 >0.78
推理LLM (o1等) 0.64-0.87 0.32-0.72

实验3:真实赞助广告

条件 vs 理性模型 (r)
无 steering <0.2
有 vigilance steering 显著提升

关键发现

  • LLM 有基本的动机敏感性,但在嘈杂真实环境中失效
  • 推理模型反而不如非推理模型——过度思考可能破坏直觉判断
  • 简单的 prompt intervention 能恢复部分能力

亮点与洞察

  • 用认知科学框架评估LLM社会认知的方法论值得推广
  • 从控制实验到真实环境的"能力落差"是重要发现
  • 对LLM agent在信息筛选(如购物助手、新闻摘要)场景的安全性有直接警示

局限性 / 可改进方向

  • 理性模型本身可能不完美
  • 仅测试英语和西方文化背景的场景

评分

  • 新颖性: ⭐⭐⭐⭐ 认知科学+LLM评估的跨学科研究
  • 实验充分度: ⭐⭐⭐⭐⭐ 三种递进范式×多模型×300真实广告
  • 写作质量: ⭐⭐⭐⭐⭐ 实验设计精巧,叙述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对LLM agent安全部署有重要启示