How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian¶

会议: ACL 2025
arXiv: 2505.21301
代码: 无（数据集公开在 GitHub 和 OSF）
领域: LLM 推理 / 认知科学
关键词: Conceptual Categories, Subordinate Level, Typicality, Category Organization, Cognitive Plausibility

一句话总结¶

通过构建首个意大利语下位类别心理语言学数据集（187 个基本类别），系统对比了人类和 LLM 在下位概念层级上的类别组织结构，发现两者的对齐度较低但在不同语义领域存在显著差异。

研究背景与动机¶

领域现状:
概念是人类认知的"基本构件"，人类可以在多个分类层级上理解同一实体（如：灰熊 → 熊 → 动物）
认知科学中的分类层级分为三层：上位类别（superordinate，如"动物"）、基本类别（basic，如"熊"）、下位类别（subordinate，如"灰熊"）
既往研究主要关注基本层级和上位层级，对下位类别的探索非常有限
LLM 在语言理解和生成方面表现接近人类，但其概念组织结构是否与人类一致仍高度争议
现有痛点:
尚无研究系统考察人类和 LLM 在下位类别层面的概念组织差异
既往 LLM 评估主要在英语、上位类别上进行，缺乏其他语言和下位层级的探索
LLM 经常生成不存在的（hallucinated）下位类别实例，且与人类产生的最典型实例严重不一致
核心矛盾:
LLM 的语义知识来源于纯文本分布，而人类的概念知识融合了语言和感知经验（如视觉、触觉）
下位类别比上位类别更依赖精细的感知细节和语言组合能力，是测试 LLM 认知对齐度的理想场景
本文要解决什么？
RQ1：人类如何在下位层级创建和组织基本类别？
RQ2：LLM 是否具有与人类相同的类别组织结构？
切入角度:
构建全新的意大利语心理语言学数据集，让 365 名被试为 187 个基本概念生成下位实例
用同样任务 probe 多个 LLM，系统对比人类与模型的输出
核心idea一句话:
首次在下位概念层级上比较人类和 LLM 的类别组织结构，揭示 LLM 在精细概念知识方面的系统性偏差

方法详解¶

整体框架¶

研究分为两个 Study： - Study 1：人类数据收集与分析（构建心理语言学数据集） - Study 2：LLM probe 实验（exemplar 生成 + 类别归纳 + 典型性判断）

关键设计¶

Study 1：人类心理语言学数据集构建:
做什么：收集 365 名意大利语母语者为 187 个基本概念（属于 12 个上位类别）生成的下位实例
核心思路：让被试尽可能多地列出某概念的下位类型（如"列出一种狗的类型"），计算 dominance（产生比例）、availability（可得性）、first occurrence（首次出现值）等指标
数据清洗后得到 24,659 个实例，取 dominance ≥ 0.1 的保留 1,696 个主要实例
关键发现：不同类别的实例丰富度差异巨大，FOOD 最多（270），PLANTS 最少（77）
Study 2：LLM Exemplar 生成与对比:
做什么：让多个 LLM（LLaMA 3.1-8B/70B、LLaMA 3.2-3B、Mistral-7B、Mixtral-8x7B、NeMo-12B、LLaVA-7B、Idefics2-8B）为相同 187 个概念生成下位实例
核心指标：
- 有效实例比例（通过意大利语语料库 ItTenTen 频率验证）
- 与人类 top-n 最典型实例的重叠率
幻觉分析：LLM 倾向于通过结构性外推生成不存在的实例
Subtask A：类别归纳（Category Induction）:
做什么：给模型 10 个人类生成的最典型下位实例，让模型选出其基本类别或上位类别
核心思路：通过 perplexity 选择最匹配的类别
结果：基本类别识别准确率较高（mixtral-8x7B 达 98%），但上位类别显著更难（最高 64%）
Subtask B：典型性判断（Typicality Detection）:
做什么：给模型一个最典型和一个最不典型的实例，判断哪个更典型
评估 LLM 是否对人类感知的典型性梯度敏感

损失函数 / 训练策略¶

不涉及模型训练，纯推理/probe 研究
使用 few-shot prompting 场景进行实例生成
使用 perplexity 进行分类任务评估

实验关键数据¶

主实验¶

LLM 有效实例生成比例： | 模型 | 有效实例比例 | |------|-------------| | LLaMA-3.1-70B | 82% | | NeMo-12B | ~75% | | Mistral-7B | 52% | | LLaVA-7B | 44% |

FOOD 类别有效率最高（85%），PLANTS 最低（52%）

Top-n 实例重叠率（人类 vs LLM）： | 模型 | Top-1 | Top-3 | Top-5 | |------|-------|-------|-------| | nemo-12B | 0.25 | 0.24 | 0.24 | | llama-3.1-70B | 0.18 | 0.20 | 0.21 | | mistral-7B | 0.13 | 0.12 | 0.13 | | idefics2-8B | 0.08 | 0.10 | 0.10 |

最佳模型（NeMo-12B）Top-5 重叠率也仅 24%

类别归纳准确率： | 模型 | 基本类别 | 上位类别 | |------|---------|---------| | mixtral-8x7B | 0.98 | 0.57 | | llama-3.1-70B | 0.95 | 0.64 | | llama-3.1-8B | 0.96 | 0.63 |

关键发现¶

人类与 LLM 的概念组织高度不对齐：最好的模型 Top-5 重叠率仅约 24%
LLM 生成大量幻觉实例：通过结构外推生成看似合理但实际不存在的组合（如"橡树叶天竺葵"）
不同语义领域差异显著：FOOD 和 ANIMALS 重叠率较高（~29-37%），BODY PARTS 和 FURNISHING 最低（~12-16%）
视觉模型未必更好：LLaVA 和 Idefics2 的表现反而更差，说明视觉预训练对下位概念组织帮助有限
LLM 的类别组织"扁平化"：LLM 缺乏人类那样的典型性梯度，生成的实例无明确的可得性排序
基本类别识别远优于上位类别：LLM 知道"拉布拉多是狗"但不太确定"拉布拉多属于动物"

亮点与洞察¶

首次探索下位类别的人机对比：填补了认知科学与 NLP 交叉研究的重要空白
跨语言视角：在意大利语上的研究为非英语 LLM 评估提供了新数据
幻觉机制的深入分析：揭示了 LLM 通过"模仿已知模式进行组合外推"生成幻觉的系统性策略
对 LLM 认知对齐研究的启示：LLM 的概念知识组织方式根本不同于人类，尤其在细粒度层级

局限性 / 可改进方向¶

仅在意大利语上验证，跨语言泛化性未知
使用 corpus frequency 验证实例有效性可能遗漏低频但合法的实例
下位类别的定义在不同文化和语言中可能有差异
未考虑 LLM 的训练数据中意大利语比例差异对结果的影响
视觉模型评估较简略，未使用带图像的 prompt
可以进一步探索 chain-of-thought 等高级 prompting 策略是否能改善 LLM 表现

评分¶

新颖性: ⭐⭐⭐⭐ — 首次在下位类别层面进行系统人机对比
实验充分度: ⭐⭐⭐⭐⭐ — 人类数据+多 LLM probe+多子任务，非常全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，认知科学背景介绍充分
价值: ⭐⭐⭐⭐ — 对理解 LLM 语义组织和认知对齐有重要参考意义