SELF-PERCEPT: Introspection Improves LLMs' Detection of Multi-Person Mental Manipulation in Conversations¶
会议: ACL 2025
arXiv: 2505.20679
代码: https://github.com/danushkhanna/self-percept
领域: LLM/NLP
关键词: mental manipulation detection, multi-turn dialogue, multi-person conversation, prompting framework, Self-Perception Theory
一句话总结¶
提出 SELF-PERCEPT 两阶段 prompting 框架,借鉴心理学自我知觉理论(Self-Perception Theory),引导 LLM 先观察对话参与者的行为线索再推断内在态度,显著提升多人多轮对话中心理操纵的检测效果。
研究背景与动机¶
- 心理操纵检测的重要性:心理操纵(mental manipulation)是一种隐蔽的人际交往中的滥用行为,通过欺骗性手段控制他人思想和情感以谋取私利,对受害者心理健康构成严重威胁。
- 现有数据集的局限:此前代表性数据集 MentalManip 基于电影台本(Cornell Movie Corpus),仅覆盖两人对话,且分布不均衡,难以反映真实世界中多人博弈的复杂操纵场景。
- 多人多轮场景的挑战:现实中操纵行为往往发生在群体协商中(如团队会议、社交场合),涉及多参与者和多轮交互,LLM 在此类场景下的检测性能严重不足。
- 传统 prompting 方法的缺陷:Zero-shot、Few-shot、CoT 等方法聚焦于逐步推理,难以捕捉言行不一致等隐性操纵信号,尤其在区分善意说服与恶意操纵时表现不佳。
- 心理学理论的启发:自我知觉理论(SPT)提出个体通过观察自身行为来推断内在态度,这一认知机制可迁移至 LLM,使其具备"先观察行为、再推断意图"的分析能力。
- 研究目标:构建更贴近真实场景的多人操纵检测数据集,并设计受心理学启发的 prompting 框架,提升 LLM 对复杂对话中操纵行为的识别精度。
方法详解¶
整体框架¶
SELF-PERCEPT 是一个两阶段 prompting 框架,模拟人类"行为观察→自我推断"的认知过程。与 CoT 侧重逐步逻辑推理不同,SELF-PERCEPT 显式地将行为线索提取与态度推断解耦,使 LLM 能更好地处理多人对话中的复杂社交动态。
模块一:MultiManip 数据集构建¶
- 数据来源:从真人秀节目 Survivor 的 Fandom 公开转录文本中提取多人多轮对话,竞技性质决定了丰富的操纵行为样本。
- 规模与分布:共 220 段对话,操纵/非操纵均衡分布,覆盖 11 种操纵技术(如指责 accusation、羞辱 shaming、否认 denial、假装无辜 feigning innocence 等)。
- 标注流程:5 名标注者回答两个问题——\(\mathcal{Q}_1\)(是否含操纵,二分类)和 \(\mathcal{Q}_2\)(操纵类型,多标签)。采用多数投票聚合,Fleiss' Kappa = 0.429(中等一致性),反映任务的内在挑战性。
- 预处理:使用 Llama-3.1-70B 进行初步过滤,GPT-4o/Llama-3.1-8B 交叉验证,人工最终校验,多模型策略缓解 LLM 偏置。
模块二:Stage 1 — Self-Percept(自我知觉/行为观察)¶
- 输入为完整多人对话,LLM 被要求全面观察和分析每位参与者的言语线索(verbal cues)和非言语线索(non-verbal cues)。
- 重点识别言行不一致:例如某人口头同意但语气中带有叹息(sigh),可能暗示被动攻击意图。
- 输出为结构化的行为观察列表,记录潜在矛盾和可疑操纵信号,作为下一阶段推理的基础。
模块三:Stage 2 — Self-Inference(自我推断/态度推理)¶
- 基于 Stage 1 的行为观察结果,LLM 推断每位参与者的内在态度与信念。
- 特别关注是否存在操纵行为,并按预定义的 11 种操纵类型进行分类。
- 输出简洁的推断结论,旨在捕捉人际动态的本质。
评估策略¶
- 在 MultiManip(本文数据集)和 MentalManip(已有数据集)上评估。
- 模型:GPT-4o、Llama-3.1-8B。
- Baseline:Zero-Shot、Few-Shot、Chain-of-Thought。
- 指标:Accuracy、Precision (\(P\))、Recall (\(R\))、Macro \(F_1\)。
实验¶
表1:MultiManip 数据集上的多标签操纵检测¶
| 模型 | Prompting | Acc. | \(P\) | \(R\) | \(F_1\) |
|---|---|---|---|---|---|
| GPT-4o | Zero-Shot | 0.27 | 0.20 | 0.31 | 0.16 |
| GPT-4o | Few-Shot | 0.39 | 0.19 | 0.21 | 0.22 |
| GPT-4o | CoT | 0.34 | 0.21 | 0.32 | 0.34 |
| GPT-4o | SELF-PERCEPT | 0.42 | 0.31 | 0.20 | 0.37 |
| Llama-3.1-8B | Zero-Shot | 0.11 | 0.09 | 0.37 | 0.29 |
| Llama-3.1-8B | Few-Shot | 0.22 | 0.17 | 0.36 | 0.13 |
| Llama-3.1-8B | CoT | 0.28 | 0.23 | 0.26 | 0.10 |
| Llama-3.1-8B | SELF-PERCEPT | 0.30 | 0.17 | 0.26 | 0.34 |
表2:MentalManip 数据集上的多标签操纵检测¶
| 模型 | Prompting | Acc. | \(P\) | \(R\) | \(F_1\) |
|---|---|---|---|---|---|
| GPT-4o | Zero-Shot | 0.11 | 0.30 | 0.62 | 0.38 |
| GPT-4o | Few-Shot | 0.22 | 0.39 | 0.53 | 0.39 |
| GPT-4o | CoT | 0.35 | 0.37 | 0.56 | 0.43 |
| GPT-4o | SELF-PERCEPT | 0.45 | 0.34 | 0.55 | 0.47 |
| Llama-3.1-8B | Zero-Shot | 0.02 | 0.11 | 0.56 | 0.17 |
| Llama-3.1-8B | Few-Shot | 0.04 | 0.07 | 0.35 | 0.11 |
| Llama-3.1-8B | CoT | 0.19 | 0.14 | 0.38 | 0.18 |
| Llama-3.1-8B | SELF-PERCEPT | 0.23 | 0.21 | 0.32 | 0.19 |
关键发现¶
- SELF-PERCEPT 一致性优势:在两个数据集、两个模型上,SELF-PERCEPT 在 Accuracy 和 \(F_1\) 上均取得最优,展现出跨数据集和跨模型的稳健性。
- 精确率-召回率权衡:SELF-PERCEPT 的 Recall 略低于 Zero-Shot/CoT,但 Precision 显著提升(GPT-4o 在 MultiManip 上 \(P\) = 0.31 vs CoT 的 0.21),说明行为观察阶段有效减少了误报。
- SHAP 可解释性分析:Stage 1 正确捕获"anxious""situation""teamwork"等心理压力和说服意图词汇(负 SHAP 值→判定为操纵),而 CoT 过度依赖中性词如"game""desire"导致误判为非操纵。
- 绝对性能仍有限:最高 \(F_1\) 仅 0.47(GPT-4o + SELF-PERCEPT 在 MentalManip 上),表明多人多轮操纵检测仍是极具挑战性的任务。
亮点¶
- 心理学理论驱动的 prompting 设计:将自我知觉理论转化为可操作的两阶段提示流程,提供了"领域理论 → NLP 方法"的优雅迁移范式。
- 行为观察与意图推断解耦:解决了 CoT 在处理隐性社交信号时"一步到位"的推理瓶颈,通过显式中间表示提升可解释性。
- MultiManip 数据集的实际价值:基于真人秀而非虚构剧本,多人多轮设计更贴近现实操纵场景,填补了该领域数据空白。
- SHAP 可视化增强可信度:通过词级归因对比展示 SELF-PERCEPT 与 CoT 的注意力差异,直观证明方法有效性。
局限¶
- 数据集规模极小:仅 220 样本,统计检验力不足,性能提升(如 +5% \(F_1\))的显著性难以严格验证。
- 领域单一:数据仅来源于 Survivor 真人秀,竞技性对话的操纵模式可能不代表日常场景(如职场 PUA、亲密关系操纵)。
- 缺乏微调实验:框架仅在 inference-time prompting 层面验证,未探索将 SELF-PERCEPT 的行为分析能力蒸馏到小模型中的可行性。
- 评估指标有限:仅报告标准分类指标,未评估操纵类型级别的细粒度性能(如哪些操纵技术更容易/更难检测)。
- Recall 损失:Precision 提升以 Recall 下降为代价,对于安全场景中"宁可错杀不可放过"的需求不够理想。
相关工作¶
- 心理操纵检测:MentalManip (Wan et al., 2024) 首个心理操纵数据集但限于两人对话;Ma et al. (2024) 用 intent-aware prompting 做二分类但忽略多人场景。
- 有毒语言检测:DeTexD (Yavnyi et al., 2023)、troll tweets 检测 (Miao et al., 2020) 关注显式毒性,对隐性操纵覆盖不足。
- 多轮对话理解:Li et al. (2022)、Yang et al. (2022) 推进了多轮对话建模,但未专门针对操纵行为。
- LLM prompting:Chain-of-Thought (Wei et al., 2022) 是里程碑式工作,SELF-PERCEPT 在此基础上引入心理学先验实现任务特化。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 自我知觉理论到 prompting 的迁移思路新颖,两阶段行为-推断解耦设计有独创性
- 技术质量: ⭐⭐⭐ — 方法清晰但本质为 prompt engineering,无模型层面创新;数据集规模偏小
- 实用价值: ⭐⭐⭐⭐ — 心理操纵检测具有重要社会安全意义,框架可直接应用于在线平台内容审核
- 写作质量: ⭐⭐⭐⭐ — 动机阐述充分,心理学理论引入自然;实验分析含 SHAP 可视化增强说服力