GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning¶

会议: ACL 2025
arXiv: 2505.22661
代码: https://github.com/IAAR-Shanghai/GuessArena
领域: LLM 评估
关键词: LLM评估, 领域知识, 推理能力, 自适应评估, 博弈交互

一句话总结¶

提出 GuessArena，一种基于"猜猜我是谁"博弈游戏的自适应 LLM 评估框架，通过领域知识建模和多轮交互推理，在五个垂直行业中有效区分模型的领域知识和推理能力。

领域现状: LLM 评估主要依赖静态 benchmark（如 MMLU、Big-Bench），难以适应多样化领域的评估需求。
现有痛点: 静态测试集缺乏灵活性、易受数据泄漏影响；动态评估（如 Chatbot Arena）依赖人类主观判断且难以标准化；GameArena 针对通用逻辑推理，无法评估领域专业知识。
核心矛盾: 为新兴领域（如区块链、生物制药）构建定制化评估 benchmark 代价高昂，涉及场景选择、问题标注和评估流水线设计。
本文要解决什么: 提供一种可扩展的、领域自适应的 LLM 评估框架，同时评估领域知识覆盖和推理链完整性。
切入角度: 将经典的"猜猜我是谁"游戏结构化为 LLM 评估方案，通过交互式问答过程评估模型的知识检索效率和逻辑推理能力。
核心idea一句话: 用博弈游戏驱动的多轮交互，自动化评估 LLM 在特定领域的知识与推理能力。

框架包含两大核心阶段：(1) 领域知识建模——从用户提供的领域文档中构建候选卡牌库；(2) 交互式推理评估——通过多轮对话模拟博弈，量化评估模型能力。

领域卡牌构建（Domain-oriented Cards Construction）: 从非结构化文档中提取结构化文本单元，通过 RAG 生成初始关键词集，利用 Sentence-BERT 计算语义相似度过滤噪声（阈值 τ_l=0.35, τ_u=0.9），最后用谱聚类将关键词分为 10 个类别。
交互式评估流程（Interactive Evaluation Procedure）: 从知识库中采样 N 张卡牌，每轮指定一张目标卡牌，被测模型通过提问策略逐步缩小范围来猜测目标。Judge 模型（GPT-4o）仅回复 Yes/No/Invalid/End。
综合评分指标: 设计 score = w₁·E + w₂·F + w₃·K（各权重=1/3），其中 E 为推理准确率、F 为推理效率（sigmoid 函数归一化）、K 为知识适用性（指数衰减惩罚）。

本文为评估框架，无训练过程。评估采用三种提示策略：basic prompt、CoT prompt（引导逐步推理）、knowledge-driven prompt（注入领域背景知识），以区分推理能力不足和知识缺乏两种情形。

在五个垂直行业（IT、金融、教育、医疗、制造）上评估 9 个主流 LLM：

三种提示策略对比（以 Claude-3.5-Sonnet 为例）：