PCoKG: Personality-aware Commonsense Reasoning with Debate¶

会议: AAAI 2026
arXiv: 2601.06234
代码: https://github.com/silverbeats/pcs_v2
领域: 图学习 / 常识推理
关键词: 常识知识图谱, 人格感知推理, MBTI, LLM角色扮演, 多智能体辩论

一句话总结¶

构建了首个大规模人格感知常识知识图谱 PCoKG，包含521,316个四元组 \((e, p, r, t)\)（事件-人格-推理维度-结果），通过LLM角色扮演+多智能体辩论机制生成高质量的人格差异化推理，实验验证了MBTI人格信息对常识推理和个性化对话生成的增强作用。

研究背景与动机¶

问题背景¶

常识推理是机器智能的关键挑战。现有的常识知识库如ATOMIC以 \((e, r, t)\) 三元组形式组织知识——事件 \(e\)、推理维度 \(r\)、结果 \(t\)。COMET等模型基于ATOMIC进行推理，已应用于情感识别和共情对话生成。

现有方法的核心局限¶

忽略了个体差异，特别是人格特质对推理的影响。ATOMIC假设所有人对同一事件的反应相同，但现实中： - 内向者面对社交互动的反应与外向者截然不同 - 直觉型(N)的人倾向抽象推理，感知型(S)的人偏好具体表达 - 不同人格类型对同一事件会形成不同的计划、情感反应和准备方式

例如：对"PersonX makes any money"事件： - ISFJ 型：计划存一些并用于家人朋友 - INTP 型：深入研究理论方面以发现底层原理

现有COMET模型产生的推理虽然合理但过于通用，缺乏个性化。

核心思路¶

扩展三元组为四元组 \((e, p, r, t)\)，引入基于MBTI的人格信息 \(p\)，利用LLM角色扮演+辩论框架大规模构建人格感知常识知识图谱，避免了人工标注中按特定人格招募标注者的高成本。

方法详解¶

整体框架¶

PCoKG 的构建分两个阶段： 1. 事件与推理维度获取：从ATOMIC2020中筛选可能引发人格差异化推理的事件-推理对 2. 人格感知推理生成：通过LLM角色扮演+辩论机制生成高质量推理

关键设计¶

1. 事件与推理维度获取：三评估者筛选机制¶

目标：不是所有事件都会引发人格差异化推理，需要筛选出真正具有人格区分度的事件-推理对。

流程： - 从ATOMIC2020提取事件，用 language_tool_python 过滤语法错误，得到19,184个规范事件 - 选择三个LLM（Deepseek-R1、Qwen-Turbo、Doubao-1.6-Seed）作为评估模型 - 定义9个评估标准，对应9个推理维度： - xIntent（动机）：事件是否因MBTI类型不同而产生明显不同的内在驱动力？ - xWant（计划）：不同MBTI类型是否对事件形成不同的计划或意图？ - xEffect（影响）：事件是否对不同MBTI类型产生不同的心理或行为影响？ - xReact（情感反应）、xNeed（准备）、xAttr（自我叙述） - oReact（他人情感）、oWant（他人意图）、oEffect（对他人影响） - 每对 \((e, r)\) 由三个评估者在1-10分打分，三个都≥6分才保留 - 最终得到95,783对 \((e, r)\)，涉及15,227个事件

设计动机：多评估者一致性筛选确保了数据质量——只有三个模型都认为该事件有显著人格区分度时才保留。

2. 人格感知推理生成——角色扮演+辩论机制：确保推理质量¶

角色扮演生成： - 按MBTI 16种人格类型的全球人口分布比例采样 - 通过角色扮演提示让LLM模拟特定MBTI类型进行推理 - 将推理维度转化为清晰的自然语言描述，增强模型理解

多智能体辩论机制（核心质量保障）：

定义三个角色： - 支持者（Proponent）：论证模型推理与目标MBTI类型一致，提供支持证据 - 反对者（Opponent）：质疑推理与预期类型的一致性 - 裁判（Judge）：评估双方论点，作出最终判断

辩论流程（Algorithm 2）： 1. 初始化 → LLM根据 \((e, r, p)\) 生成推理 \(t\) 2. 多轮辩论：支持者辩护 → 反对者质疑 → 循环 3. 裁判评估并判定： - 若推理可接受 → 返回 \(t\) - 若不合格 → 裁判提供反馈，模型迭代改进 4. 最多重试 max_generate_times 次

设计动机：单纯的角色扮演生成可能不完全符合目标人格。辩论机制通过多角度审视和迭代反馈确保推理的人格一致性和质量。

3. 数据集规模与统计¶

指标	数值
数据规模	521,316 四元组
事件数量	15,077
平均事件长度	4.79 词
平均推理结果长度	8.75 词
MBTI类型	16种全覆盖
推理维度	9种

损失函数 / 训练策略¶

下游应用训练： - 数据划分：99:0.5:0.5（训练:验证:测试），基于事件分组 - 基础模型：Qwen3-0.6B、LLaMA3-1B、MiniCPM4-0.5B - 全参数微调（PCoKGM）：将推理维度和人格类型作为自然语言提示拼入输入 - 对比基线（COMET）：将推理维度和人格类型编码为特殊token - 训练设置：4×3090 GPU，batch=8/GPU，梯度累积4步，cosine学习率调度，1 epoch，每300步验证，早停

实验关键数据¶

数据集验证¶

1. 可读性-人格关联分析： - ESFP型（Flesch分77.7）和ESTP型（74.0）使用直接具体的语言 - INTJ型（37.0）和INTP型（39.6）使用更复杂抽象的语言 - 与MBTI理论一致：T/N型偏好逻辑抽象推理，F/S型偏好情感可及的表达

2. 调整互信息分析（AMI）：

推理维度	AMI	AMI (打乱)	说明
xAttr（自我叙述）	0.512	-0.000027	与人格关联最强
xReact（情感反应）	0.256	-0.000009	强关联
xIntent（动机）	0.240	-0.000033	强关联
xWant（计划）	0.238	0.000021	强关联
oReact（他人情感）	0.115	-0.000044	较弱但显著

所有维度的AMI显著高于随机打乱基线（Mann-Whitney U检验 \(p < 0.01\)），自我感知相关维度与MBTI关联最强。

3. 人类评估： - 3名心理学研究生评估1,440个样本 - 推理连贯性：1.78/2.0、自然度：1.71/2.0、人格一致性：1.63/2.0 - Fleiss' Kappa = 0.57（中等到显著一致性）

主实验¶

模型	B-4	R-1	R-2	R-L
DeepSeek-R1 (1-shot)	2.67	14.45	1.89	13.44
GPT-o4-mini (1-shot)	5.38	15.34	2.09	14.28
COMET-LLaMA3	12.58	30.51	12.77	28.91
COMET-Qwen3	10.09	26.31	9.26	25.00
PCoKGM-LLaMA3	13.73	32.09	14.31	30.53
PCoKGM-Qwen3	14.08	32.68	14.78	31.07
PCoKGM-MiniCPM4	14.50	32.99	15.27	31.38

PCoKGM 全面超越 COMET 和大型LLM的1-shot推理，证明了人格信息和自然语言提示编码方式的优越性。

消融实验¶

配置 (LLaMA3)	B-4	R-1	R-2	R-L	说明
PCoKGM (full)	13.73	32.09	14.31	30.53	完整模型
w/o MBTI	10.16	25.59	9.36	24.51	降幅最大，人格是核心
w/o select	11.25	27.92	10.59	26.49	事件筛选有效
w/o debate	12.09	29.45	12.04	28.08	辩论机制提升质量
w/o select & debate	10.66	26.00	9.62	24.72	两者互补，同时移除效果最差

三个基础模型的消融趋势一致，验证了结论的鲁棒性。

关键发现¶

MBTI信息是最关键因素：移除MBTI导致最大性能下降（B-4从13.73→10.16），证明人格特质是结构化推理的锚点
自然语言 > 特殊token：PCoKGM将人格和推理维度作为自然语言提示优于COMET的特殊token编码方式
模型规模与性能正相关：在Qwen3/LLaMA3/MiniCPM4三个系列中，更大参数量的模型在PCoKG任务上表现更好
对话生成应用有效：在SPC数据集上，PCoKGM增强后的对话生成全面优于COMET增强和无常识推理版本
LLM初始生成不够好：大型LLM的1-shot推理远不如微调后的小模型，验证了辩论框架在构建阶段对生成进行精炼的必要性

亮点与洞察¶

首个大规模人格感知常识知识图谱：521K四元组、16种MBTI类型、9个推理维度，填补了人格与常识推理的交叉空白
多智能体辩论的质量保障：支持者-反对者-裁判的三角色辩论框架，比单轮生成更可靠。辩论不仅产出单个高质量样本，更通过反馈循环系统性提升生成质量
可读性分析揭示的有趣现象：LLM在角色扮演时确实产生了与MBTI理论一致的语言风格差异（INTJ复杂抽象 vs ESFP直接具体），说明LLM已内化了人格-语言的隐性关联
数据集构建管线的可迁移性：虽然基于MBTI框架，但管线设计可适配其他人格理论或角色属性
AMI分析的深层洞察：自我感知维度（xAttr，AMI=0.512）比他人感知维度（oReact，AMI=0.115）与人格关联更强——这本身就是一个有趣的心理学发现

局限与展望¶

仅考虑人格特质，未涉及性别、职业、文化背景等其他影响推理的因素
MBTI的心理学效度存在争议（test-retest reliability不稳定），构建在其上的知识图谱可能继承了这种局限
人格一致性评分最低（1.63/2.0），说明LLM角色扮演在精确匹配特定人格方面仍有提升空间
评估指标以词重叠为主（BLEU、ROUGE），未评估语义层面的人格一致性
改进方向：整合更多人口统计属性、探索Big Five等更稳健的人格模型、引入语义评估指标、构建多语言版本

评分¶

新颖性: ⭐⭐⭐⭐ — 人格+常识推理的交叉方向新颖，辩论+角色扮演管线设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 数据集多维验证（可读性/AMI/人类评估）+模型实验+消融+规模分析+应用
写作质量: ⭐⭐⭐⭐ — 结构完整，但部分表述偏冗长
实用价值: ⭐⭐⭐⭐ — 开源数据集和代码，管线可复用，但MBTI本身争议限制了直接应用