Why Did Apple Fall: Evaluating Curiosity in Large Language Models¶

会议: ACL 2026
arXiv: 2510.20635
代码: https://github.com/Yukijudaii1352/CuriosityEval
领域: LLM 评估 / 认知科学
关键词: 好奇心, LLM行为评估, 心理学量表, 行为实验, 推理增强

一句话总结¶

本文提出首个系统评估 LLM 好奇心行为的心理学启发框架，结合问卷自评和行为实验发现 LLM 展现出好奇心般的行为模式但并非内在特质，并设计好奇心驱动的提问管道证明模拟好奇行为可提升下游推理性能。

领域现状：好奇心驱动的强化学习（如 i-MENTOR、CDE）通过内在奖励信号引导 LLM 探索，已在数学和编程任务上展现潜力。然而，这些方法是否真正反映了 LLM 的好奇心行为、心理学意义上的好奇心概念能否迁移到 LLM，尚不清楚。

现有痛点：(1) 未充分评估 LLM 是否能展现类似好奇心的行为特征；(2) 现有方法依赖熵或困惑度等统计信号，难以区分改进来自增强的监督信号还是真正的好奇行为；(3) 缺乏系统化的评估框架。

核心矛盾：好奇心驱动的 RL 方法假设 LLM 的好奇心可以被激发和增强，但我们甚至不知道 LLM 是否"拥有"好奇心。

本文目标：(1) 用心理学量表和行为实验系统评估 LLM 的好奇心行为；(2) 区分好奇心是内在特质还是行为模式；(3) 探索好奇行为能否提升下游性能。

切入角度：改编五维好奇心量表修订版（5DCR），将人类好奇心的三个维度（信息寻求、刺激寻求、社交好奇）分别设计问卷评估和行为任务，实现从"自我报告"到"行为验证"的闭环评估。

核心 idea：LLM 展现出好奇心般的行为模式，但这更像是拟合人类数据和安全约束的产物而非内在驱动力；不过，即使是纯行为层面的好奇模拟也能提升推理性能。

四阶段评估框架：(A) 建立好奇心分类体系（5DCR → 信息寻求/刺激寻求/社交好奇）；(B) 问卷自评——LLM 用 7 点量表回答 24 题；(C) 行为实验——每个维度设计对应的决策任务验证问卷结果；(D) 好奇心驱动学习——设计 CoQ 提问管道，测试好奇行为的功能价值。

问卷+行为的双重评估:
- 功能：分别从自省和行为层面评估好奇心
- 核心思路：问卷层面用 5DCR 的 24 题，计算 Cohen's d（与人类的标准化差异）和 McDonald's Omega（内部一致性）。行为层面设计三个实验：信息寻求用缺字游戏（模型填字后是否选择看答案）、刺激寻求用潜水艇游戏（选确定/不确定窗口）、社交好奇用对话实验（与虚拟陌生人对话中的提问频率）
- 设计动机：问卷自评可能受幻觉人格影响，行为实验提供更可靠的行为证据
好奇心驱动的提问管道（CoQ）:
- 功能：测试好奇行为是否对推理有功能价值
- 核心思路：设计三种 prompt——Vanilla CoT（标准思维链）、Refined CoT（含反思和回溯）、Curious CoQ（鼓励自问自答，如"如果...会怎样"、"为什么"、"怎么做"）。同时在 SFT+RLVR 管道中对比三种思维过程的训练效果
- 设计动机：如果好奇行为有功能价值，那么即使 LLM 没有内在好奇心，模拟好奇策略也应该有帮助
行为-内在特质区分:
- 功能：判断 LLM 的好奇心是行为模式还是内在特质
- 核心思路：分析好奇行为在不同 prompt、不同上下文中的稳定性。如果是内在特质应具有跨上下文一致性，如果是行为模式则应对上下文高度敏感
- 设计动机：这一区分对理解好奇心驱动 RL 的理论基础至关重要

SFT 阶段用标准语言建模损失，RLVR 阶段用 GRPO，仅使用格式奖励和正确性奖励（二元奖励）。

问卷自评（7 点量表，越高越好奇）