How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian¶
会议: ACL 2025
arXiv: 2505.21301
代码: 无(数据集公开在 GitHub 和 OSF)
领域: LLM 推理 / 认知科学
关键词: Conceptual Categories, Subordinate Level, Typicality, Category Organization, Cognitive Plausibility
一句话总结¶
通过构建首个意大利语下位类别心理语言学数据集(187 个基本类别),系统对比了人类和 LLM 在下位概念层级上的类别组织结构,发现两者的对齐度较低但在不同语义领域存在显著差异。
研究背景与动机¶
- 领域现状:
- 概念是人类认知的"基本构件",人类可以在多个分类层级上理解同一实体(如:灰熊 → 熊 → 动物)
- 认知科学中的分类层级分为三层:上位类别(superordinate,如"动物")、基本类别(basic,如"熊")、下位类别(subordinate,如"灰熊")
- 既往研究主要关注基本层级和上位层级,对下位类别的探索非常有限
-
LLM 在语言理解和生成方面表现接近人类,但其概念组织结构是否与人类一致仍高度争议
-
现有痛点:
- 尚无研究系统考察人类和 LLM 在下位类别层面的概念组织差异
- 既往 LLM 评估主要在英语、上位类别上进行,缺乏其他语言和下位层级的探索
-
LLM 经常生成不存在的(hallucinated)下位类别实例,且与人类产生的最典型实例严重不一致
-
核心矛盾:
- LLM 的语义知识来源于纯文本分布,而人类的概念知识融合了语言和感知经验(如视觉、触觉)
-
下位类别比上位类别更依赖精细的感知细节和语言组合能力,是测试 LLM 认知对齐度的理想场景
-
本文要解决什么?
- RQ1:人类如何在下位层级创建和组织基本类别?
-
RQ2:LLM 是否具有与人类相同的类别组织结构?
-
切入角度:
- 构建全新的意大利语心理语言学数据集,让 365 名被试为 187 个基本概念生成下位实例
-
用同样任务 probe 多个 LLM,系统对比人类与模型的输出
-
核心idea一句话:
- 首次在下位概念层级上比较人类和 LLM 的类别组织结构,揭示 LLM 在精细概念知识方面的系统性偏差
方法详解¶
整体框架¶
研究分为两个 Study: - Study 1:人类数据收集与分析(构建心理语言学数据集) - Study 2:LLM probe 实验(exemplar 生成 + 类别归纳 + 典型性判断)
关键设计¶
- Study 1:人类心理语言学数据集构建:
- 做什么:收集 365 名意大利语母语者为 187 个基本概念(属于 12 个上位类别)生成的下位实例
- 核心思路:让被试尽可能多地列出某概念的下位类型(如"列出一种狗的类型"),计算 dominance(产生比例)、availability(可得性)、first occurrence(首次出现值)等指标
- 数据清洗后得到 24,659 个实例,取 dominance ≥ 0.1 的保留 1,696 个主要实例
-
关键发现:不同类别的实例丰富度差异巨大,FOOD 最多(270),PLANTS 最少(77)
-
Study 2:LLM Exemplar 生成与对比:
- 做什么:让多个 LLM(LLaMA 3.1-8B/70B、LLaMA 3.2-3B、Mistral-7B、Mixtral-8x7B、NeMo-12B、LLaVA-7B、Idefics2-8B)为相同 187 个概念生成下位实例
- 核心指标:
- 有效实例比例(通过意大利语语料库 ItTenTen 频率验证)
- 与人类 top-n 最典型实例的重叠率
-
幻觉分析:LLM 倾向于通过结构性外推生成不存在的实例
-
Subtask A:类别归纳(Category Induction):
- 做什么:给模型 10 个人类生成的最典型下位实例,让模型选出其基本类别或上位类别
- 核心思路:通过 perplexity 选择最匹配的类别
-
结果:基本类别识别准确率较高(mixtral-8x7B 达 98%),但上位类别显著更难(最高 64%)
-
Subtask B:典型性判断(Typicality Detection):
- 做什么:给模型一个最典型和一个最不典型的实例,判断哪个更典型
- 评估 LLM 是否对人类感知的典型性梯度敏感
损失函数 / 训练策略¶
- 不涉及模型训练,纯推理/probe 研究
- 使用 few-shot prompting 场景进行实例生成
- 使用 perplexity 进行分类任务评估
实验关键数据¶
主实验¶
LLM 有效实例生成比例: | 模型 | 有效实例比例 | |------|-------------| | LLaMA-3.1-70B | 82% | | NeMo-12B | ~75% | | Mistral-7B | 52% | | LLaVA-7B | 44% |
- FOOD 类别有效率最高(85%),PLANTS 最低(52%)
Top-n 实例重叠率(人类 vs LLM): | 模型 | Top-1 | Top-3 | Top-5 | |------|-------|-------|-------| | nemo-12B | 0.25 | 0.24 | 0.24 | | llama-3.1-70B | 0.18 | 0.20 | 0.21 | | mistral-7B | 0.13 | 0.12 | 0.13 | | idefics2-8B | 0.08 | 0.10 | 0.10 |
- 最佳模型(NeMo-12B)Top-5 重叠率也仅 24%
类别归纳准确率: | 模型 | 基本类别 | 上位类别 | |------|---------|---------| | mixtral-8x7B | 0.98 | 0.57 | | llama-3.1-70B | 0.95 | 0.64 | | llama-3.1-8B | 0.96 | 0.63 |
关键发现¶
- 人类与 LLM 的概念组织高度不对齐:最好的模型 Top-5 重叠率仅约 24%
- LLM 生成大量幻觉实例:通过结构外推生成看似合理但实际不存在的组合(如"橡树叶天竺葵")
- 不同语义领域差异显著:FOOD 和 ANIMALS 重叠率较高(~29-37%),BODY PARTS 和 FURNISHING 最低(~12-16%)
- 视觉模型未必更好:LLaVA 和 Idefics2 的表现反而更差,说明视觉预训练对下位概念组织帮助有限
- LLM 的类别组织"扁平化":LLM 缺乏人类那样的典型性梯度,生成的实例无明确的可得性排序
- 基本类别识别远优于上位类别:LLM 知道"拉布拉多是狗"但不太确定"拉布拉多属于动物"
亮点与洞察¶
- 首次探索下位类别的人机对比:填补了认知科学与 NLP 交叉研究的重要空白
- 跨语言视角:在意大利语上的研究为非英语 LLM 评估提供了新数据
- 幻觉机制的深入分析:揭示了 LLM 通过"模仿已知模式进行组合外推"生成幻觉的系统性策略
- 对 LLM 认知对齐研究的启示:LLM 的概念知识组织方式根本不同于人类,尤其在细粒度层级
局限性 / 可改进方向¶
- 仅在意大利语上验证,跨语言泛化性未知
- 使用 corpus frequency 验证实例有效性可能遗漏低频但合法的实例
- 下位类别的定义在不同文化和语言中可能有差异
- 未考虑 LLM 的训练数据中意大利语比例差异对结果的影响
- 视觉模型评估较简略,未使用带图像的 prompt
- 可以进一步探索 chain-of-thought 等高级 prompting 策略是否能改善 LLM 表现
相关工作与启发¶
- Rosch (1975, 1978):原型理论奠基人,定义了分类层级和典型性效应
- Nighojkar et al. (2022):用 Transformer 模拟语义流畅性任务,RoBERTa-Large 准确率仅 16%
- Heyman and Heyman (2024):ChatGPT 的典型性评分与人类相似度约 0.60-0.64
- Misra et al. (2021, 2023):LLM 在精细属性归因上与人类相关性仅 0.24-0.41
- 启发:LLM 作为"认知模型"的局限性在精细语义层面尤为明显
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次在下位类别层面进行系统人机对比
- 实验充分度: ⭐⭐⭐⭐⭐ — 人类数据+多 LLM probe+多子任务,非常全面
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,认知科学背景介绍充分
- 价值: ⭐⭐⭐⭐ — 对理解 LLM 语义组织和认知对齐有重要参考意义