Are Large Language Models Sensitive to the Motives Behind Communication?¶

会议: NeurIPS 2025
arXiv: 2510.19687
代码: 有
领域: LLM Agent / 认知科学
关键词: 动机警觉, LLM评估, 社会认知, 偏见信息源, 赞助广告

一句话总结¶

系统评估 LLM 对通信动机的敏感性（motivational vigilance）——在控制实验中 LLM 能像人类一样折扣有偏见信源的建议（与理性模型相关系数 r>0.78），但在真实场景（YouTube 赞助广告）中表现大幅下降（r<0.2），通过简单的 prompt steering 可部分恢复。

研究背景与动机¶

领域现状：LLM 处理的信息大部分是人类有目的产生的（观点文章、社交媒体、广告），但 LLM 是否能像人类一样识别信息背后的动机？
现有痛点：LLM 已知存在越狱、谄媚等问题，暗示它们对信息源的动机不够警觉。但缺乏系统评估。
核心矛盾：LLM 需要遵循指令（helpfulness），但也需要对有偏见的输入保持警觉（vigilance）——二者可能冲突。
切入角度：用认知科学的理性模型作为基准，评估 LLM 在三种实验范式中的动机警觉能力。
核心idea一句话：LLM 有基本的动机敏感性，但从实验室到真实环境，额外的上下文信息会干扰这种能力。

方法详解¶

三种评估范式¶

实验1：有意 vs 偶然信息：LLM 是否区分刻意建议和无意观察到的信息？结果：能区分，且行为符合人类模式
实验2：校准信任度：改变信源的善意程度和利益冲突，LLM 是否相应调整信任？
非推理模型（GPT-4o等）：与人类高度一致（r>0.9），与理性模型一致（r>0.78）
推理模型（o1等）：反而更差（r∈[0.32,0.72]），可能因为过度分析
实验3：YouTube 赞助广告：300 个真实赞助广告，LLM 能否折扣赞助内容？
表现大幅下降（r<0.2）
原因：噪声上下文分散了对动机线索的注意力
Prompt steering 部分恢复

实验关键数据¶

实验2：结构化场景¶

模型类型	vs 人类数据 (r)	vs 理性模型 (r)
非推理LLM (GPT-4o)	>0.9	>0.78
推理LLM (o1等)	0.64-0.87	0.32-0.72

实验3：真实赞助广告¶

条件	vs 理性模型 (r)
无 steering	<0.2
有 vigilance steering	显著提升

关键发现¶

LLM 有基本的动机敏感性，但在嘈杂真实环境中失效
推理模型反而不如非推理模型——过度思考可能破坏直觉判断
简单的 prompt intervention 能恢复部分能力

亮点与洞察¶

用认知科学框架评估LLM社会认知的方法论值得推广
从控制实验到真实环境的"能力落差"是重要发现
对LLM agent在信息筛选（如购物助手、新闻摘要）场景的安全性有直接警示

局限性 / 可改进方向¶

理性模型本身可能不完美
仅测试英语和西方文化背景的场景

评分¶

新颖性: ⭐⭐⭐⭐ 认知科学+LLM评估的跨学科研究
实验充分度: ⭐⭐⭐⭐⭐ 三种递进范式×多模型×300真实广告
写作质量: ⭐⭐⭐⭐⭐ 实验设计精巧，叙述清晰
价值: ⭐⭐⭐⭐⭐ 对LLM agent安全部署有重要启示