GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning¶
会议: ACL 2025
arXiv: 2505.22661
代码: https://github.com/IAAR-Shanghai/GuessArena
领域: LLM 评估
关键词: LLM评估, 领域知识, 推理能力, 自适应评估, 博弈交互
一句话总结¶
提出 GuessArena,一种基于"猜猜我是谁"博弈游戏的自适应 LLM 评估框架,通过领域知识建模和多轮交互推理,在五个垂直行业中有效区分模型的领域知识和推理能力。
研究背景与动机¶
- 领域现状: LLM 评估主要依赖静态 benchmark(如 MMLU、Big-Bench),难以适应多样化领域的评估需求。
- 现有痛点: 静态测试集缺乏灵活性、易受数据泄漏影响;动态评估(如 Chatbot Arena)依赖人类主观判断且难以标准化;GameArena 针对通用逻辑推理,无法评估领域专业知识。
- 核心矛盾: 为新兴领域(如区块链、生物制药)构建定制化评估 benchmark 代价高昂,涉及场景选择、问题标注和评估流水线设计。
- 本文要解决什么: 提供一种可扩展的、领域自适应的 LLM 评估框架,同时评估领域知识覆盖和推理链完整性。
- 切入角度: 将经典的"猜猜我是谁"游戏结构化为 LLM 评估方案,通过交互式问答过程评估模型的知识检索效率和逻辑推理能力。
- 核心idea一句话: 用博弈游戏驱动的多轮交互,自动化评估 LLM 在特定领域的知识与推理能力。
方法详解¶
整体框架¶
框架包含两大核心阶段:(1) 领域知识建模——从用户提供的领域文档中构建候选卡牌库;(2) 交互式推理评估——通过多轮对话模拟博弈,量化评估模型能力。
关键设计¶
- 领域卡牌构建(Domain-oriented Cards Construction): 从非结构化文档中提取结构化文本单元,通过 RAG 生成初始关键词集,利用 Sentence-BERT 计算语义相似度过滤噪声(阈值 τ_l=0.35, τ_u=0.9),最后用谱聚类将关键词分为 10 个类别。
- 交互式评估流程(Interactive Evaluation Procedure): 从知识库中采样 N 张卡牌,每轮指定一张目标卡牌,被测模型通过提问策略逐步缩小范围来猜测目标。Judge 模型(GPT-4o)仅回复 Yes/No/Invalid/End。
- 综合评分指标: 设计 score = w₁·E + w₂·F + w₃·K(各权重=1/3),其中 E 为推理准确率、F 为推理效率(sigmoid 函数归一化)、K 为知识适用性(指数衰减惩罚)。
损失函数 / 训练策略¶
本文为评估框架,无训练过程。评估采用三种提示策略:basic prompt、CoT prompt(引导逐步推理)、knowledge-driven prompt(注入领域背景知识),以区分推理能力不足和知识缺乏两种情形。
实验关键数据¶
主实验¶
在五个垂直行业(IT、金融、教育、医疗、制造)上评估 9 个主流 LLM:
| 模型 | IT | 金融 | 教育 | 医疗 | 制造 | 平均 |
|---|---|---|---|---|---|---|
| GPT-4o | 0.924 | 0.847 | 0.902 | 0.930 | 0.904 | 0.902 |
| OpenAI-o1 | 0.881 | 0.920 | 0.927 | 0.928 | 0.871 | 0.905 |
| Qwen2.5-72B | 0.905 | 0.853 | 0.893 | 0.911 | 0.902 | 0.893 |
| DeepSeek-V3 | 0.899 | 0.802 | 0.875 | 0.928 | 0.797 | 0.860 |
| Llama-3.3-70B | 0.805 | 0.758 | 0.805 | 0.778 | 0.797 | 0.788 |
消融实验¶
三种提示策略对比(以 Claude-3.5-Sonnet 为例):
| 提示策略 | IT | 金融 | 教育 | 医疗 | 制造 | 平均 |
|---|---|---|---|---|---|---|
| Basic | 0.854 | 0.794 | 0.849 | 0.913 | 0.844 | 0.851 |
| CoT | 0.896 | 0.809 | 0.855 | 0.910 | 0.847 | 0.863 |
| Knowledge | 0.887 | 0.845 | 0.870 | 0.874 | 0.873 | 0.870 |
关键发现¶
- OpenAI-o1 和 GPT-4o 在三种策略下表现稳定,强模型对提示策略不敏感
- 推理能力弱但知识丰富的模型(如 Llama-3.3-70B)从 CoT 策略获益最多;知识不足但推理强的模型从 knowledge-driven 策略获益最多
- Claude-3.5-Sonnet 在金融领域从 knowledge-driven 策略获益显著(+5.1%)
- Judge 模型(GPT-4o)与人类标注的一致率为 92.33%
亮点与洞察¶
- 框架设计巧妙:将游戏机制形式化为评估协议,兼具趣味性和科学性
- 自适应卡牌提取算法大幅降低了构建领域评估集的成本
- 三种提示策略的对比设计能有效诊断模型的"推理不足"vs"知识缺乏"
局限性 / 可改进方向¶
- 依赖 GPT-4o 作为 Judge 模型,存在评估偏差风险
- 谱聚类分 10 类的超参数选择缺乏理论依据
- 仅覆盖 5 个行业,对更细分领域的适用性未验证
- 多轮交互的 token 开销较大,评估成本可进一步优化
相关工作与启发¶
- 与 GameArena 对比:GuessArena 增加领域知识维度,不局限于通用逻辑推理
- 与 Chatbot Arena 对比:完全自动化,无需人类参与,可扩展性强
- 启发:博弈交互范式可推广到其他评估场景(如代码生成、多模态理解)
补充分析¶
- Judge 模型与人类标注的一致率为 92.33%,验证了自动化评估的可靠性
- Qwen2.5-72B 与 GPT-4o 标注一致率也达 88.17%,说明框架的评估结果是稳健的
- 知识驱动提示能使 Claude-3.5-Sonnet 在金融领域得分从 0.794 提升至 0.845(+6.4%),说明知识注入对该模型效果显著
- DeepSeek-R1 在 knowledge-driven 策略下反而在部分领域下降,可能是外部知识与内部推理链冲突
- 框架的可扩展性经五个行业验证,但更细粒度领域(如加密货币、罕见病诊断)的适用性有待探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 博弈游戏评估思路新颖,但核心技术(RAG+聚类)较常规
- 实验充分度: ⭐⭐⭐⭐ 5个领域×9个模型×3种策略,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,结构完整
- 价值: ⭐⭐⭐⭐ 提供了一种低成本领域评估方案,实用性较强