CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of LLMs in Mental Health QA¶
会议: ICLR 2026 Oral
arXiv: 2506.08584
代码: GitHub
领域: LLM评估 / 医疗AI安全
关键词: mental health QA, expert annotation, adversarial benchmark, LLM-as-Judge, safety evaluation
一句话总结¶
联合100名持证心理健康专家构建CounselBench双组件基准——CounselBench-EVAL(2,000条六维度专家评估)和CounselBench-Adv(120个对抗性问题+1,080条响应标注),系统性揭示LLM在心理健康开放式问答中表面得分高但存在过度泛化、擅自医疗建议等安全隐患,同时证明LLM-as-Judge在安全关键领域严重不可靠。
研究背景与动机¶
- 评估空白:现有医疗QA基准(MedQA、MedMCQA)以多选题和事实型任务为主,无法评估LLM对真实患者开放式提问的回答能力。心理健康领域尤其特殊——患者问题混合了症状描述、治疗顾虑和情感需求,回答需要平衡共情、临床谨慎和专业边界。
- 专家参与不足:已有的心理健康QA评估要么依赖小规模专家组(成本限制),要么使用LLM-as-Judge(可靠性存疑),缺乏大规模、临床接地的系统评估。
- 安全风险未知:CounselChat等平台上LLM已被实际使用,但其在敏感场景下的失败模式(如擅自推荐药物、过度泛化)缺乏前瞻性压力测试。
- 核心思路:招募100名专业人员做大规模开放式评估+10名专家编写对抗性问题,形成"评估+压测"双组件基准,建立临床接地的LLM评估框架。
方法详解¶
整体框架¶
CounselBench由两个互补组件组成:
- CounselBench-EVAL:从CounselChat平台筛选100个真实患者问题(覆盖抑郁、焦虑、创伤、家暴等20个话题),分别由GPT-4、LLaMA-3.3-70B、Gemini-1.5-Pro和在线人类治疗师作答,每条回答由5名独立专家在6个临床维度上评分并提供span-level标注和文字理由
- CounselBench-Adv:基于EVAL中发现的失败模式,10名专家编写120个对抗性问题(每人12个,覆盖6种失败类型),9个LLM各生成120条响应,共1,080条,由另外5名专家标注是否触发目标失败
六维度评估体系¶
| 维度 | 描述 | 量表 |
|---|---|---|
| Overall Quality | 整体回答质量的综合判断 | 1-5 Likert |
| Empathy | 是否表现出情感共鸣、同理心和情绪验证 | 1-5 Likert |
| Specificity | 是否针对用户具体情境给出个性化建议(非泛泛之谈) | 1-5 Likert |
| Medical Advice | 是否包含应由持证专业人员提供的治疗/诊断建议 | 二值(Yes/No) |
| Factual Consistency | 是否与公认临床知识一致、无虚假信息 | 1-4 |
| Toxicity | 是否包含有害、歧视、轻视或伦理问题内容 | 1-5 |
每个维度设计都有临床心理学文献支撑:共情源自以人为中心治疗理论,个性化关联治疗联盟效果,医疗建议维度专门捕捉越权临床推荐。
专家标注协议¶
- 通过Upwork招募100名美国持证/受训心理健康从业者,逐一验证学历和执照
- 涵盖32种不同执照/学位类型、43个专业领域
- 每名标注者随机分配5个问题×4个回答(3个LLM+1个人类),回答顺序随机化以消除位置偏差
- 每个问答对由5名独立专家评分,总计 \(100 \times 4 \times 5 = 2{,}000\) 条标注
- 标注者对回答来源完全盲测
- 中位标注时长1小时22分钟,中位文字理由576.5词,表明深度参与
对抗性问题设计(CounselBench-Adv)¶
从EVAL中提取的6种细粒度失败模式:
- Medication(GPT-4):推荐具体药物(如SSRI)
- Therapy(GPT-4):建议特定治疗技术(如CBT)
- Symptoms(LLaMA-3.3):擅自猜测医学症状
- Judgmental(LLaMA-3.3):带评判性语气
- Apathetic(Gemini-1.5-Pro):缺乏共情、冷漠
- Assumptions(Gemini-1.5-Pro):基于无根据的假设推断
每名专家为每种失败模式编写2个问题,问题本身不包含失败,而是设计成能诱发LLM产生该类错误。
实验关键数据¶
主实验:四种来源回答的专家评分¶
| 来源 | Overall ↑ | Empathy ↑ | Specificity ↑ | Medical Advice | Factual ↑ | Toxicity ↓ |
|---|---|---|---|---|---|---|
| GPT-4 | 3.28 | 3.37 | 3.46 | 7% | 3.53 | 1.78 |
| LLaMA-3.3 | 4.29 | 4.22 | 4.63 | 14% | 3.70 | 1.36 |
| Gemini-1.5-Pro | 3.26 | 2.76 | 3.50 | 8% | 3.52 | 1.64 |
| 人类治疗师 | 2.60 | 2.72 | 3.29 | 17% | 2.92 | 2.56 |
- LLaMA-3.3在5/6维度领先,但14%回答被标记为擅自医疗建议(推荐治疗技术)
- GPT-4约1/3回答主动加安全免责声明,拒绝作答并建议咨询专业人员
- 人类治疗师得分最低——论坛回答质量参差不齐,但这也反映了非结构化在线咨询的现实
- 标注者间一致性高:Krippendorff's \(\alpha \geq 0.72\)(所有维度),整体质量和共情达0.82-0.83
对抗性实验:9个LLM的失败模式触发率¶
| 失败类型 | GPT-3.5 | GPT-4 | GPT-5 | LLaMA-3.1 | LLaMA-3.3 | Claude-3.5 | Claude-3.7 | Gemini-1.5 | Gemini-2.0 |
|---|---|---|---|---|---|---|---|---|---|
| Medication | 0.05 | 0.00 | 0.47 | 0.05 | 0.10 | 0.00 | 0.00 | 0.00 | 0.00 |
| Therapy | 0.20 | 0.20 | 0.85 | 0.55 | 0.65 | 0.45 | 0.50 | 0.20 | 0.26 |
| Symptoms | 0.15 | 0.45 | 0.60 | 0.45 | 0.45 | 0.50 | 0.37 | 0.26 | 0.25 |
| Judgmental | 0.25 | 0.25 | 0.05 | 0.11 | 0.10 | 0.05 | 0.10 | 0.20 | 0.10 |
| Apathetic | 0.70 | 0.20 | 0.15 | 0.15 | 0.15 | 0.05 | 0.20 | 0.40 | 0.30 |
| Assumptions | 0.40 | 0.35 | 0.15 | 0.25 | 0.25 | 0.35 | 0.25 | 0.40 | 0.35 |
关键发现¶
- GPT-5是最大"越权者":85%回答建议具体治疗技术,47%推荐具体药物——能力越强越容易越界
- 模型家族内失败模式一致:LLaMA系列(3.1/3.3)、Claude系列(3.5/3.7)、Gemini系列(1.5/2.0)各自内部分布相似,但GPT家族跨版本差异大
- GPT-3.5最"冷漠":70%触发apathetic失败,远高于其他模型
- LLM-as-Judge严重不可靠:所有LLM judge对Factual Consistency给出近满分,对Toxicity几乎一律最低分,即使专家已标记内容有害。最佳LLM judge(Claude-3.7-Sonnet)在对抗性任务上F1仅0.50
亮点与洞察¶
- 安全关键领域的LLM judge不可靠:这是全文最重要的发现之一。LLM judge系统性高估模型表现、忽视安全问题,在高风险领域(医疗、法律)中用LLM替代人类专家评估是危险的。
- 能力越强越危险的悖论:GPT-5作为最强模型,在对抗性测试中反而表现最差——更强的知识让它更倾向于给出具体但越权的临床建议。这对"scaling solves safety"的假设提出挑战。
- 经验驱动的对抗性设计:不同于预定义红队攻击,本文的对抗性问题从真实专家评估中涌现出的失败模式出发,更贴近实际临床风险。方法论可迁移到其他高风险领域。
- 标注质量极高:中位576.5词的文字理由、\(\alpha \geq 0.72\) 的一致性、逐一验证的专业资质——这是心理健康AI评估领域规模和质量的新标杆。
局限性¶
- 语言和文化单一:仅覆盖英语、美国心理健康从业者,跨文化/跨语言场景下的模型行为未评估
- 单轮交互:仅评估单轮QA,未涉及多轮对话中的上下文追踪、一致性维护等能力
- 数据源局限:CounselChat为公开论坛,问题和回答质量不代表真实临床场景
- 成本难以复制:100名专家的标注成本高昂,限制了更大规模的应用
- 模型时效性:评估的模型版本(GPT-4-0613等)已非最新,结论的持续适用性需验证
相关工作¶
- 医疗QA基准:MedQA、MedMCQA侧重多选题事实性,MultiMedQA引入多轴评估,HealthBench扩展到数万条医师策划项,但均聚焦结构化医学知识
- 心理健康QA:已有工作多用考试式多选题(Racha et al., 2025)或小规模专家组,本文首次实现百人规模专家参与的开放式评估
- LLM-as-Judge:在摘要和事实性任务上有效,但本文证明其在高风险主观领域(心理健康安全)中严重不可靠
- 对抗性评估:已有红队工作多基于文献预定义失败模式,本文采用经验驱动的专家编写方式,覆盖更多实践中出现的真实问题
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首个百人规模专家参与的心理健康LLM评估基准 |
| 实验充分度 | ⭐⭐⭐⭐⭐ | 100名专家×2,000评估+9模型×1,080对抗性响应,标注一致性高 |
| 写作质量 | ⭐⭐⭐⭐⭐ | 临床维度定义严谨,实验流程清晰可复现 |
| 实用价值 | ⭐⭐⭐⭐⭐ | 对LLM医疗部署的安全警示和评估方法学有持久影响 |
| 综合 | ⭐⭐⭐⭐⭐ | ICLR 2026 Oral,基准质量和影响力匹配顶级认可 |