跳转至

PCoKG: Personality-aware Commonsense Reasoning with Debate

会议: AAAI 2026
arXiv: 2601.06234
代码: https://github.com/silverbeats/pcs_v2
领域: 图学习 / 常识推理
关键词: 常识知识图谱, 人格感知推理, MBTI, LLM角色扮演, 多智能体辩论

一句话总结

构建了首个大规模人格感知常识知识图谱 PCoKG,包含521,316个四元组 \((e, p, r, t)\)(事件-人格-推理维度-结果),通过LLM角色扮演+多智能体辩论机制生成高质量的人格差异化推理,实验验证了MBTI人格信息对常识推理和个性化对话生成的增强作用。

研究背景与动机

问题背景

常识推理是机器智能的关键挑战。现有的常识知识库如ATOMIC以 \((e, r, t)\) 三元组形式组织知识——事件 \(e\)、推理维度 \(r\)、结果 \(t\)。COMET等模型基于ATOMIC进行推理,已应用于情感识别和共情对话生成。

现有方法的核心局限

忽略了个体差异,特别是人格特质对推理的影响。ATOMIC假设所有人对同一事件的反应相同,但现实中: - 内向者面对社交互动的反应与外向者截然不同 - 直觉型(N)的人倾向抽象推理,感知型(S)的人偏好具体表达 - 不同人格类型对同一事件会形成不同的计划、情感反应和准备方式

例如:对"PersonX makes any money"事件: - ISFJ 型:计划存一些并用于家人朋友 - INTP 型:深入研究理论方面以发现底层原理

现有COMET模型产生的推理虽然合理但过于通用,缺乏个性化。

核心思路

扩展三元组为四元组 \((e, p, r, t)\),引入基于MBTI的人格信息 \(p\),利用LLM角色扮演+辩论框架大规模构建人格感知常识知识图谱,避免了人工标注中按特定人格招募标注者的高成本。

方法详解

整体框架

PCoKG 的构建分两个阶段: 1. 事件与推理维度获取:从ATOMIC2020中筛选可能引发人格差异化推理的事件-推理对 2. 人格感知推理生成:通过LLM角色扮演+辩论机制生成高质量推理

关键设计

1. 事件与推理维度获取:三评估者筛选机制

目标:不是所有事件都会引发人格差异化推理,需要筛选出真正具有人格区分度的事件-推理对。

流程: - 从ATOMIC2020提取事件,用 language_tool_python 过滤语法错误,得到19,184个规范事件 - 选择三个LLM(Deepseek-R1、Qwen-Turbo、Doubao-1.6-Seed)作为评估模型 - 定义9个评估标准,对应9个推理维度: - xIntent(动机):事件是否因MBTI类型不同而产生明显不同的内在驱动力? - xWant(计划):不同MBTI类型是否对事件形成不同的计划或意图? - xEffect(影响):事件是否对不同MBTI类型产生不同的心理或行为影响? - xReact(情感反应)、xNeed(准备)、xAttr(自我叙述) - oReact(他人情感)、oWant(他人意图)、oEffect(对他人影响) - 每对 \((e, r)\) 由三个评估者在1-10分打分,三个都≥6分才保留 - 最终得到95,783对 \((e, r)\),涉及15,227个事件

设计动机:多评估者一致性筛选确保了数据质量——只有三个模型都认为该事件有显著人格区分度时才保留。

2. 人格感知推理生成——角色扮演+辩论机制:确保推理质量

角色扮演生成: - 按MBTI 16种人格类型的全球人口分布比例采样 - 通过角色扮演提示让LLM模拟特定MBTI类型进行推理 - 将推理维度转化为清晰的自然语言描述,增强模型理解

多智能体辩论机制(核心质量保障):

定义三个角色: - 支持者(Proponent):论证模型推理与目标MBTI类型一致,提供支持证据 - 反对者(Opponent):质疑推理与预期类型的一致性 - 裁判(Judge):评估双方论点,作出最终判断

辩论流程(Algorithm 2): 1. 初始化 → LLM根据 \((e, r, p)\) 生成推理 \(t\) 2. 多轮辩论:支持者辩护 → 反对者质疑 → 循环 3. 裁判评估并判定: - 若推理可接受 → 返回 \(t\) - 若不合格 → 裁判提供反馈,模型迭代改进 4. 最多重试 max_generate_times 次

设计动机:单纯的角色扮演生成可能不完全符合目标人格。辩论机制通过多角度审视和迭代反馈确保推理的人格一致性和质量。

3. 数据集规模与统计

指标 数值
数据规模 521,316 四元组
事件数量 15,077
平均事件长度 4.79 词
平均推理结果长度 8.75 词
MBTI类型 16种全覆盖
推理维度 9种

损失函数 / 训练策略

下游应用训练: - 数据划分:99:0.5:0.5(训练:验证:测试),基于事件分组 - 基础模型:Qwen3-0.6B、LLaMA3-1B、MiniCPM4-0.5B - 全参数微调(PCoKGM):将推理维度和人格类型作为自然语言提示拼入输入 - 对比基线(COMET):将推理维度和人格类型编码为特殊token - 训练设置:4×3090 GPU,batch=8/GPU,梯度累积4步,cosine学习率调度,1 epoch,每300步验证,早停

实验关键数据

数据集验证

1. 可读性-人格关联分析: - ESFP型(Flesch分77.7)和ESTP型(74.0)使用直接具体的语言 - INTJ型(37.0)和INTP型(39.6)使用更复杂抽象的语言 - 与MBTI理论一致:T/N型偏好逻辑抽象推理,F/S型偏好情感可及的表达

2. 调整互信息分析(AMI):

推理维度 AMI AMI (打乱) 说明
xAttr(自我叙述) 0.512 -0.000027 与人格关联最强
xReact(情感反应) 0.256 -0.000009 强关联
xIntent(动机) 0.240 -0.000033 强关联
xWant(计划) 0.238 0.000021 强关联
oReact(他人情感) 0.115 -0.000044 较弱但显著

所有维度的AMI显著高于随机打乱基线(Mann-Whitney U检验 \(p < 0.01\)),自我感知相关维度与MBTI关联最强。

3. 人类评估: - 3名心理学研究生评估1,440个样本 - 推理连贯性:1.78/2.0、自然度:1.71/2.0、人格一致性:1.63/2.0 - Fleiss' Kappa = 0.57(中等到显著一致性)

主实验

模型 B-4 R-1 R-2 R-L
DeepSeek-R1 (1-shot) 2.67 14.45 1.89 13.44
GPT-o4-mini (1-shot) 5.38 15.34 2.09 14.28
COMET-LLaMA3 12.58 30.51 12.77 28.91
COMET-Qwen3 10.09 26.31 9.26 25.00
PCoKGM-LLaMA3 13.73 32.09 14.31 30.53
PCoKGM-Qwen3 14.08 32.68 14.78 31.07
PCoKGM-MiniCPM4 14.50 32.99 15.27 31.38

PCoKGM 全面超越 COMET 和大型LLM的1-shot推理,证明了人格信息和自然语言提示编码方式的优越性。

消融实验

配置 (LLaMA3) B-4 R-1 R-2 R-L 说明
PCoKGM (full) 13.73 32.09 14.31 30.53 完整模型
w/o MBTI 10.16 25.59 9.36 24.51 降幅最大,人格是核心
w/o select 11.25 27.92 10.59 26.49 事件筛选有效
w/o debate 12.09 29.45 12.04 28.08 辩论机制提升质量
w/o select & debate 10.66 26.00 9.62 24.72 两者互补,同时移除效果最差

三个基础模型的消融趋势一致,验证了结论的鲁棒性。

关键发现

  1. MBTI信息是最关键因素:移除MBTI导致最大性能下降(B-4从13.73→10.16),证明人格特质是结构化推理的锚点
  2. 自然语言 > 特殊token:PCoKGM将人格和推理维度作为自然语言提示优于COMET的特殊token编码方式
  3. 模型规模与性能正相关:在Qwen3/LLaMA3/MiniCPM4三个系列中,更大参数量的模型在PCoKG任务上表现更好
  4. 对话生成应用有效:在SPC数据集上,PCoKGM增强后的对话生成全面优于COMET增强和无常识推理版本
  5. LLM初始生成不够好:大型LLM的1-shot推理远不如微调后的小模型,验证了辩论框架在构建阶段对生成进行精炼的必要性

亮点与洞察

  1. 首个大规模人格感知常识知识图谱:521K四元组、16种MBTI类型、9个推理维度,填补了人格与常识推理的交叉空白
  2. 多智能体辩论的质量保障:支持者-反对者-裁判的三角色辩论框架,比单轮生成更可靠。辩论不仅产出单个高质量样本,更通过反馈循环系统性提升生成质量
  3. 可读性分析揭示的有趣现象:LLM在角色扮演时确实产生了与MBTI理论一致的语言风格差异(INTJ复杂抽象 vs ESFP直接具体),说明LLM已内化了人格-语言的隐性关联
  4. 数据集构建管线的可迁移性:虽然基于MBTI框架,但管线设计可适配其他人格理论或角色属性
  5. AMI分析的深层洞察:自我感知维度(xAttr,AMI=0.512)比他人感知维度(oReact,AMI=0.115)与人格关联更强——这本身就是一个有趣的心理学发现

局限与展望

  1. 仅考虑人格特质,未涉及性别、职业、文化背景等其他影响推理的因素
  2. MBTI的心理学效度存在争议(test-retest reliability不稳定),构建在其上的知识图谱可能继承了这种局限
  3. 人格一致性评分最低(1.63/2.0),说明LLM角色扮演在精确匹配特定人格方面仍有提升空间
  4. 评估指标以词重叠为主(BLEU、ROUGE),未评估语义层面的人格一致性
  5. 改进方向:整合更多人口统计属性、探索Big Five等更稳健的人格模型、引入语义评估指标、构建多语言版本

相关工作与启发

  • ATOMIC/COMET 提供了基础的事件推理框架,PCoKG在此基础上增加人格维度
  • Yang et al. (2024) 构建了中文个性化常识推理数据集但依赖人工标注,规模受限
  • 辩论框架的设计可迁移到任何需要LLM生成高质量结构化数据的场景
  • PCoKG对个性化对话系统、情感计算、用户建模有直接应用价值

评分

  • 新颖性: ⭐⭐⭐⭐ — 人格+常识推理的交叉方向新颖,辩论+角色扮演管线设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ — 数据集多维验证(可读性/AMI/人类评估)+模型实验+消融+规模分析+应用
  • 写作质量: ⭐⭐⭐⭐ — 结构完整,但部分表述偏冗长
  • 实用价值: ⭐⭐⭐⭐ — 开源数据集和代码,管线可复用,但MBTI本身争议限制了直接应用

相关论文