PCoKG: Personality-aware Commonsense Reasoning with Debate¶
会议: AAAI 2026
arXiv: 2601.06234
代码: https://github.com/silverbeats/pcs_v2
领域: 图学习 / 常识推理
关键词: 常识知识图谱, 人格感知推理, MBTI, LLM角色扮演, 多智能体辩论
一句话总结¶
构建了首个大规模人格感知常识知识图谱 PCoKG,包含521,316个四元组 \((e, p, r, t)\)(事件-人格-推理维度-结果),通过LLM角色扮演+多智能体辩论机制生成高质量的人格差异化推理,实验验证了MBTI人格信息对常识推理和个性化对话生成的增强作用。
研究背景与动机¶
问题背景¶
常识推理是机器智能的关键挑战。现有的常识知识库如ATOMIC以 \((e, r, t)\) 三元组形式组织知识——事件 \(e\)、推理维度 \(r\)、结果 \(t\)。COMET等模型基于ATOMIC进行推理,已应用于情感识别和共情对话生成。
现有方法的核心局限¶
忽略了个体差异,特别是人格特质对推理的影响。ATOMIC假设所有人对同一事件的反应相同,但现实中: - 内向者面对社交互动的反应与外向者截然不同 - 直觉型(N)的人倾向抽象推理,感知型(S)的人偏好具体表达 - 不同人格类型对同一事件会形成不同的计划、情感反应和准备方式
例如:对"PersonX makes any money"事件: - ISFJ 型:计划存一些并用于家人朋友 - INTP 型:深入研究理论方面以发现底层原理
现有COMET模型产生的推理虽然合理但过于通用,缺乏个性化。
核心思路¶
扩展三元组为四元组 \((e, p, r, t)\),引入基于MBTI的人格信息 \(p\),利用LLM角色扮演+辩论框架大规模构建人格感知常识知识图谱,避免了人工标注中按特定人格招募标注者的高成本。
方法详解¶
整体框架¶
PCoKG 的构建分两个阶段: 1. 事件与推理维度获取:从ATOMIC2020中筛选可能引发人格差异化推理的事件-推理对 2. 人格感知推理生成:通过LLM角色扮演+辩论机制生成高质量推理
关键设计¶
1. 事件与推理维度获取:三评估者筛选机制¶
目标:不是所有事件都会引发人格差异化推理,需要筛选出真正具有人格区分度的事件-推理对。
流程: - 从ATOMIC2020提取事件,用 language_tool_python 过滤语法错误,得到19,184个规范事件 - 选择三个LLM(Deepseek-R1、Qwen-Turbo、Doubao-1.6-Seed)作为评估模型 - 定义9个评估标准,对应9个推理维度: - xIntent(动机):事件是否因MBTI类型不同而产生明显不同的内在驱动力? - xWant(计划):不同MBTI类型是否对事件形成不同的计划或意图? - xEffect(影响):事件是否对不同MBTI类型产生不同的心理或行为影响? - xReact(情感反应)、xNeed(准备)、xAttr(自我叙述) - oReact(他人情感)、oWant(他人意图)、oEffect(对他人影响) - 每对 \((e, r)\) 由三个评估者在1-10分打分,三个都≥6分才保留 - 最终得到95,783对 \((e, r)\),涉及15,227个事件
设计动机:多评估者一致性筛选确保了数据质量——只有三个模型都认为该事件有显著人格区分度时才保留。
2. 人格感知推理生成——角色扮演+辩论机制:确保推理质量¶
角色扮演生成: - 按MBTI 16种人格类型的全球人口分布比例采样 - 通过角色扮演提示让LLM模拟特定MBTI类型进行推理 - 将推理维度转化为清晰的自然语言描述,增强模型理解
多智能体辩论机制(核心质量保障):
定义三个角色: - 支持者(Proponent):论证模型推理与目标MBTI类型一致,提供支持证据 - 反对者(Opponent):质疑推理与预期类型的一致性 - 裁判(Judge):评估双方论点,作出最终判断
辩论流程(Algorithm 2): 1. 初始化 → LLM根据 \((e, r, p)\) 生成推理 \(t\) 2. 多轮辩论:支持者辩护 → 反对者质疑 → 循环 3. 裁判评估并判定: - 若推理可接受 → 返回 \(t\) - 若不合格 → 裁判提供反馈,模型迭代改进 4. 最多重试 max_generate_times 次
设计动机:单纯的角色扮演生成可能不完全符合目标人格。辩论机制通过多角度审视和迭代反馈确保推理的人格一致性和质量。
3. 数据集规模与统计¶
| 指标 | 数值 |
|---|---|
| 数据规模 | 521,316 四元组 |
| 事件数量 | 15,077 |
| 平均事件长度 | 4.79 词 |
| 平均推理结果长度 | 8.75 词 |
| MBTI类型 | 16种全覆盖 |
| 推理维度 | 9种 |
损失函数 / 训练策略¶
下游应用训练: - 数据划分:99:0.5:0.5(训练:验证:测试),基于事件分组 - 基础模型:Qwen3-0.6B、LLaMA3-1B、MiniCPM4-0.5B - 全参数微调(PCoKGM):将推理维度和人格类型作为自然语言提示拼入输入 - 对比基线(COMET):将推理维度和人格类型编码为特殊token - 训练设置:4×3090 GPU,batch=8/GPU,梯度累积4步,cosine学习率调度,1 epoch,每300步验证,早停
实验关键数据¶
数据集验证¶
1. 可读性-人格关联分析: - ESFP型(Flesch分77.7)和ESTP型(74.0)使用直接具体的语言 - INTJ型(37.0)和INTP型(39.6)使用更复杂抽象的语言 - 与MBTI理论一致:T/N型偏好逻辑抽象推理,F/S型偏好情感可及的表达
2. 调整互信息分析(AMI):
| 推理维度 | AMI | AMI (打乱) | 说明 |
|---|---|---|---|
| xAttr(自我叙述) | 0.512 | -0.000027 | 与人格关联最强 |
| xReact(情感反应) | 0.256 | -0.000009 | 强关联 |
| xIntent(动机) | 0.240 | -0.000033 | 强关联 |
| xWant(计划) | 0.238 | 0.000021 | 强关联 |
| oReact(他人情感) | 0.115 | -0.000044 | 较弱但显著 |
所有维度的AMI显著高于随机打乱基线(Mann-Whitney U检验 \(p < 0.01\)),自我感知相关维度与MBTI关联最强。
3. 人类评估: - 3名心理学研究生评估1,440个样本 - 推理连贯性:1.78/2.0、自然度:1.71/2.0、人格一致性:1.63/2.0 - Fleiss' Kappa = 0.57(中等到显著一致性)
主实验¶
| 模型 | B-4 | R-1 | R-2 | R-L |
|---|---|---|---|---|
| DeepSeek-R1 (1-shot) | 2.67 | 14.45 | 1.89 | 13.44 |
| GPT-o4-mini (1-shot) | 5.38 | 15.34 | 2.09 | 14.28 |
| COMET-LLaMA3 | 12.58 | 30.51 | 12.77 | 28.91 |
| COMET-Qwen3 | 10.09 | 26.31 | 9.26 | 25.00 |
| PCoKGM-LLaMA3 | 13.73 | 32.09 | 14.31 | 30.53 |
| PCoKGM-Qwen3 | 14.08 | 32.68 | 14.78 | 31.07 |
| PCoKGM-MiniCPM4 | 14.50 | 32.99 | 15.27 | 31.38 |
PCoKGM 全面超越 COMET 和大型LLM的1-shot推理,证明了人格信息和自然语言提示编码方式的优越性。
消融实验¶
| 配置 (LLaMA3) | B-4 | R-1 | R-2 | R-L | 说明 |
|---|---|---|---|---|---|
| PCoKGM (full) | 13.73 | 32.09 | 14.31 | 30.53 | 完整模型 |
| w/o MBTI | 10.16 | 25.59 | 9.36 | 24.51 | 降幅最大,人格是核心 |
| w/o select | 11.25 | 27.92 | 10.59 | 26.49 | 事件筛选有效 |
| w/o debate | 12.09 | 29.45 | 12.04 | 28.08 | 辩论机制提升质量 |
| w/o select & debate | 10.66 | 26.00 | 9.62 | 24.72 | 两者互补,同时移除效果最差 |
三个基础模型的消融趋势一致,验证了结论的鲁棒性。
关键发现¶
- MBTI信息是最关键因素:移除MBTI导致最大性能下降(B-4从13.73→10.16),证明人格特质是结构化推理的锚点
- 自然语言 > 特殊token:PCoKGM将人格和推理维度作为自然语言提示优于COMET的特殊token编码方式
- 模型规模与性能正相关:在Qwen3/LLaMA3/MiniCPM4三个系列中,更大参数量的模型在PCoKG任务上表现更好
- 对话生成应用有效:在SPC数据集上,PCoKGM增强后的对话生成全面优于COMET增强和无常识推理版本
- LLM初始生成不够好:大型LLM的1-shot推理远不如微调后的小模型,验证了辩论框架在构建阶段对生成进行精炼的必要性
亮点与洞察¶
- 首个大规模人格感知常识知识图谱:521K四元组、16种MBTI类型、9个推理维度,填补了人格与常识推理的交叉空白
- 多智能体辩论的质量保障:支持者-反对者-裁判的三角色辩论框架,比单轮生成更可靠。辩论不仅产出单个高质量样本,更通过反馈循环系统性提升生成质量
- 可读性分析揭示的有趣现象:LLM在角色扮演时确实产生了与MBTI理论一致的语言风格差异(INTJ复杂抽象 vs ESFP直接具体),说明LLM已内化了人格-语言的隐性关联
- 数据集构建管线的可迁移性:虽然基于MBTI框架,但管线设计可适配其他人格理论或角色属性
- AMI分析的深层洞察:自我感知维度(xAttr,AMI=0.512)比他人感知维度(oReact,AMI=0.115)与人格关联更强——这本身就是一个有趣的心理学发现
局限与展望¶
- 仅考虑人格特质,未涉及性别、职业、文化背景等其他影响推理的因素
- MBTI的心理学效度存在争议(test-retest reliability不稳定),构建在其上的知识图谱可能继承了这种局限
- 人格一致性评分最低(1.63/2.0),说明LLM角色扮演在精确匹配特定人格方面仍有提升空间
- 评估指标以词重叠为主(BLEU、ROUGE),未评估语义层面的人格一致性
- 改进方向:整合更多人口统计属性、探索Big Five等更稳健的人格模型、引入语义评估指标、构建多语言版本
相关工作与启发¶
- ATOMIC/COMET 提供了基础的事件推理框架,PCoKG在此基础上增加人格维度
- Yang et al. (2024) 构建了中文个性化常识推理数据集但依赖人工标注,规模受限
- 辩论框架的设计可迁移到任何需要LLM生成高质量结构化数据的场景
- PCoKG对个性化对话系统、情感计算、用户建模有直接应用价值
评分¶
- 新颖性: ⭐⭐⭐⭐ — 人格+常识推理的交叉方向新颖,辩论+角色扮演管线设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ — 数据集多维验证(可读性/AMI/人类评估)+模型实验+消融+规模分析+应用
- 写作质量: ⭐⭐⭐⭐ — 结构完整,但部分表述偏冗长
- 实用价值: ⭐⭐⭐⭐ — 开源数据集和代码,管线可复用,但MBTI本身争议限制了直接应用
相关论文¶
- [AAAI 2026] MUG: Meta-path-aware Universal Heterogeneous Graph Pre-Training
- [AAAI 2026] RFKG-CoT: Relation-Driven Adaptive Hop-count Selection and Few-Shot Path Guidance for Knowledge-Aware QA
- [AAAI 2026] MyGram: Modality-aware Graph Transformer with Global Distribution for Multi-modal Entity Alignment
- [AAAI 2026] S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning
- [ICML 2025] Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models