跳转至

How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian

会议: ACL 2025
arXiv: 2505.21301
代码: 无(数据集公开在 GitHub 和 OSF)
领域: LLM 推理 / 认知科学
关键词: Conceptual Categories, Subordinate Level, Typicality, Category Organization, Cognitive Plausibility

一句话总结

通过构建首个意大利语下位类别心理语言学数据集(187 个基本类别),系统对比了人类和 LLM 在下位概念层级上的类别组织结构,发现两者的对齐度较低但在不同语义领域存在显著差异。

研究背景与动机

  1. 领域现状:
  2. 概念是人类认知的"基本构件",人类可以在多个分类层级上理解同一实体(如:灰熊 → 熊 → 动物)
  3. 认知科学中的分类层级分为三层:上位类别(superordinate,如"动物")、基本类别(basic,如"熊")、下位类别(subordinate,如"灰熊")
  4. 既往研究主要关注基本层级和上位层级,对下位类别的探索非常有限
  5. LLM 在语言理解和生成方面表现接近人类,但其概念组织结构是否与人类一致仍高度争议

  6. 现有痛点:

  7. 尚无研究系统考察人类和 LLM 在下位类别层面的概念组织差异
  8. 既往 LLM 评估主要在英语、上位类别上进行,缺乏其他语言和下位层级的探索
  9. LLM 经常生成不存在的(hallucinated)下位类别实例,且与人类产生的最典型实例严重不一致

  10. 核心矛盾:

  11. LLM 的语义知识来源于纯文本分布,而人类的概念知识融合了语言和感知经验(如视觉、触觉)
  12. 下位类别比上位类别更依赖精细的感知细节和语言组合能力,是测试 LLM 认知对齐度的理想场景

  13. 本文要解决什么?

  14. RQ1:人类如何在下位层级创建和组织基本类别?
  15. RQ2:LLM 是否具有与人类相同的类别组织结构?

  16. 切入角度:

  17. 构建全新的意大利语心理语言学数据集,让 365 名被试为 187 个基本概念生成下位实例
  18. 用同样任务 probe 多个 LLM,系统对比人类与模型的输出

  19. 核心idea一句话:

  20. 首次在下位概念层级上比较人类和 LLM 的类别组织结构,揭示 LLM 在精细概念知识方面的系统性偏差

方法详解

整体框架

研究分为两个 Study: - Study 1:人类数据收集与分析(构建心理语言学数据集) - Study 2:LLM probe 实验(exemplar 生成 + 类别归纳 + 典型性判断)

关键设计

  1. Study 1:人类心理语言学数据集构建:
  2. 做什么:收集 365 名意大利语母语者为 187 个基本概念(属于 12 个上位类别)生成的下位实例
  3. 核心思路:让被试尽可能多地列出某概念的下位类型(如"列出一种狗的类型"),计算 dominance(产生比例)、availability(可得性)、first occurrence(首次出现值)等指标
  4. 数据清洗后得到 24,659 个实例,取 dominance ≥ 0.1 的保留 1,696 个主要实例
  5. 关键发现:不同类别的实例丰富度差异巨大,FOOD 最多(270),PLANTS 最少(77)

  6. Study 2:LLM Exemplar 生成与对比:

  7. 做什么:让多个 LLM(LLaMA 3.1-8B/70B、LLaMA 3.2-3B、Mistral-7B、Mixtral-8x7B、NeMo-12B、LLaVA-7B、Idefics2-8B)为相同 187 个概念生成下位实例
  8. 核心指标:
    • 有效实例比例(通过意大利语语料库 ItTenTen 频率验证)
    • 与人类 top-n 最典型实例的重叠率
  9. 幻觉分析:LLM 倾向于通过结构性外推生成不存在的实例

  10. Subtask A:类别归纳(Category Induction):

  11. 做什么:给模型 10 个人类生成的最典型下位实例,让模型选出其基本类别或上位类别
  12. 核心思路:通过 perplexity 选择最匹配的类别
  13. 结果:基本类别识别准确率较高(mixtral-8x7B 达 98%),但上位类别显著更难(最高 64%)

  14. Subtask B:典型性判断(Typicality Detection):

  15. 做什么:给模型一个最典型和一个最不典型的实例,判断哪个更典型
  16. 评估 LLM 是否对人类感知的典型性梯度敏感

损失函数 / 训练策略

  • 不涉及模型训练,纯推理/probe 研究
  • 使用 few-shot prompting 场景进行实例生成
  • 使用 perplexity 进行分类任务评估

实验关键数据

主实验

LLM 有效实例生成比例: | 模型 | 有效实例比例 | |------|-------------| | LLaMA-3.1-70B | 82% | | NeMo-12B | ~75% | | Mistral-7B | 52% | | LLaVA-7B | 44% |

  • FOOD 类别有效率最高(85%),PLANTS 最低(52%)

Top-n 实例重叠率(人类 vs LLM): | 模型 | Top-1 | Top-3 | Top-5 | |------|-------|-------|-------| | nemo-12B | 0.25 | 0.24 | 0.24 | | llama-3.1-70B | 0.18 | 0.20 | 0.21 | | mistral-7B | 0.13 | 0.12 | 0.13 | | idefics2-8B | 0.08 | 0.10 | 0.10 |

  • 最佳模型(NeMo-12B)Top-5 重叠率也仅 24%

类别归纳准确率: | 模型 | 基本类别 | 上位类别 | |------|---------|---------| | mixtral-8x7B | 0.98 | 0.57 | | llama-3.1-70B | 0.95 | 0.64 | | llama-3.1-8B | 0.96 | 0.63 |

关键发现

  1. 人类与 LLM 的概念组织高度不对齐:最好的模型 Top-5 重叠率仅约 24%
  2. LLM 生成大量幻觉实例:通过结构外推生成看似合理但实际不存在的组合(如"橡树叶天竺葵")
  3. 不同语义领域差异显著:FOOD 和 ANIMALS 重叠率较高(~29-37%),BODY PARTS 和 FURNISHING 最低(~12-16%)
  4. 视觉模型未必更好:LLaVA 和 Idefics2 的表现反而更差,说明视觉预训练对下位概念组织帮助有限
  5. LLM 的类别组织"扁平化":LLM 缺乏人类那样的典型性梯度,生成的实例无明确的可得性排序
  6. 基本类别识别远优于上位类别:LLM 知道"拉布拉多是狗"但不太确定"拉布拉多属于动物"

亮点与洞察

  • 首次探索下位类别的人机对比:填补了认知科学与 NLP 交叉研究的重要空白
  • 跨语言视角:在意大利语上的研究为非英语 LLM 评估提供了新数据
  • 幻觉机制的深入分析:揭示了 LLM 通过"模仿已知模式进行组合外推"生成幻觉的系统性策略
  • 对 LLM 认知对齐研究的启示:LLM 的概念知识组织方式根本不同于人类,尤其在细粒度层级

局限性 / 可改进方向

  1. 仅在意大利语上验证,跨语言泛化性未知
  2. 使用 corpus frequency 验证实例有效性可能遗漏低频但合法的实例
  3. 下位类别的定义在不同文化和语言中可能有差异
  4. 未考虑 LLM 的训练数据中意大利语比例差异对结果的影响
  5. 视觉模型评估较简略,未使用带图像的 prompt
  6. 可以进一步探索 chain-of-thought 等高级 prompting 策略是否能改善 LLM 表现

相关工作与启发

  • Rosch (1975, 1978):原型理论奠基人,定义了分类层级和典型性效应
  • Nighojkar et al. (2022):用 Transformer 模拟语义流畅性任务,RoBERTa-Large 准确率仅 16%
  • Heyman and Heyman (2024):ChatGPT 的典型性评分与人类相似度约 0.60-0.64
  • Misra et al. (2021, 2023):LLM 在精细属性归因上与人类相关性仅 0.24-0.41
  • 启发:LLM 作为"认知模型"的局限性在精细语义层面尤为明显

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次在下位类别层面进行系统人机对比
  • 实验充分度: ⭐⭐⭐⭐⭐ — 人类数据+多 LLM probe+多子任务,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,认知科学背景介绍充分
  • 价值: ⭐⭐⭐⭐ — 对理解 LLM 语义组织和认知对齐有重要参考意义