CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of LLMs in Mental Health QA¶

会议: ICLR 2026 Oral
arXiv: 2506.08584
代码: GitHub
领域: LLM评估 / 医疗AI安全
关键词: mental health QA, expert annotation, adversarial benchmark, LLM-as-Judge, safety evaluation

一句话总结¶

联合100名持证心理健康专家构建CounselBench双组件基准——CounselBench-EVAL（2,000条六维度专家评估）和CounselBench-Adv（120个对抗性问题+1,080条响应标注），系统性揭示LLM在心理健康开放式问答中表面得分高但存在过度泛化、擅自医疗建议等安全隐患，同时证明LLM-as-Judge在安全关键领域严重不可靠。

研究背景与动机¶

评估空白：现有医疗QA基准（MedQA、MedMCQA）以多选题和事实型任务为主，无法评估LLM对真实患者开放式提问的回答能力。心理健康领域尤其特殊——患者问题混合了症状描述、治疗顾虑和情感需求，回答需要平衡共情、临床谨慎和专业边界。
专家参与不足：已有的心理健康QA评估要么依赖小规模专家组（成本限制），要么使用LLM-as-Judge（可靠性存疑），缺乏大规模、临床接地的系统评估。
安全风险未知：CounselChat等平台上LLM已被实际使用，但其在敏感场景下的失败模式（如擅自推荐药物、过度泛化）缺乏前瞻性压力测试。
核心思路：招募100名专业人员做大规模开放式评估+10名专家编写对抗性问题，形成"评估+压测"双组件基准，建立临床接地的LLM评估框架。

方法详解¶

整体框架¶

CounselBench由两个互补组件组成：

CounselBench-EVAL：从CounselChat平台筛选100个真实患者问题（覆盖抑郁、焦虑、创伤、家暴等20个话题），分别由GPT-4、LLaMA-3.3-70B、Gemini-1.5-Pro和在线人类治疗师作答，每条回答由5名独立专家在6个临床维度上评分并提供span-level标注和文字理由
CounselBench-Adv：基于EVAL中发现的失败模式，10名专家编写120个对抗性问题（每人12个，覆盖6种失败类型），9个LLM各生成120条响应，共1,080条，由另外5名专家标注是否触发目标失败

六维度评估体系¶

维度	描述	量表
Overall Quality	整体回答质量的综合判断	1-5 Likert
Empathy	是否表现出情感共鸣、同理心和情绪验证	1-5 Likert
Specificity	是否针对用户具体情境给出个性化建议（非泛泛之谈）	1-5 Likert
Medical Advice	是否包含应由持证专业人员提供的治疗/诊断建议	二值(Yes/No)
Factual Consistency	是否与公认临床知识一致、无虚假信息	1-4
Toxicity	是否包含有害、歧视、轻视或伦理问题内容	1-5

每个维度设计都有临床心理学文献支撑：共情源自以人为中心治疗理论，个性化关联治疗联盟效果，医疗建议维度专门捕捉越权临床推荐。

专家标注协议¶

通过Upwork招募100名美国持证/受训心理健康从业者，逐一验证学历和执照
涵盖32种不同执照/学位类型、43个专业领域
每名标注者随机分配5个问题×4个回答（3个LLM+1个人类），回答顺序随机化以消除位置偏差
每个问答对由5名独立专家评分，总计 \(100 \times 4 \times 5 = 2{,}000\) 条标注
标注者对回答来源完全盲测
中位标注时长1小时22分钟，中位文字理由576.5词，表明深度参与

对抗性问题设计（CounselBench-Adv）¶

从EVAL中提取的6种细粒度失败模式：

Medication（GPT-4）：推荐具体药物（如SSRI）
Therapy（GPT-4）：建议特定治疗技术（如CBT）
Symptoms（LLaMA-3.3）：擅自猜测医学症状
Judgmental（LLaMA-3.3）：带评判性语气
Apathetic（Gemini-1.5-Pro）：缺乏共情、冷漠
Assumptions（Gemini-1.5-Pro）：基于无根据的假设推断

每名专家为每种失败模式编写2个问题，问题本身不包含失败，而是设计成能诱发LLM产生该类错误。

实验关键数据¶

主实验：四种来源回答的专家评分¶

来源	Overall ↑	Empathy ↑	Specificity ↑	Medical Advice	Factual ↑	Toxicity ↓
GPT-4	3.28	3.37	3.46	7%	3.53	1.78
LLaMA-3.3	4.29	4.22	4.63	14%	3.70	1.36
Gemini-1.5-Pro	3.26	2.76	3.50	8%	3.52	1.64
人类治疗师	2.60	2.72	3.29	17%	2.92	2.56

LLaMA-3.3在5/6维度领先，但14%回答被标记为擅自医疗建议（推荐治疗技术）
GPT-4约1/3回答主动加安全免责声明，拒绝作答并建议咨询专业人员
人类治疗师得分最低——论坛回答质量参差不齐，但这也反映了非结构化在线咨询的现实
标注者间一致性高：Krippendorff's \(\alpha \geq 0.72\)（所有维度），整体质量和共情达0.82-0.83

对抗性实验：9个LLM的失败模式触发率¶

失败类型	GPT-3.5	GPT-4	GPT-5	LLaMA-3.1	LLaMA-3.3	Claude-3.5	Claude-3.7	Gemini-1.5	Gemini-2.0
Medication	0.05	0.00	0.47	0.05	0.10	0.00	0.00	0.00	0.00
Therapy	0.20	0.20	0.85	0.55	0.65	0.45	0.50	0.20	0.26
Symptoms	0.15	0.45	0.60	0.45	0.45	0.50	0.37	0.26	0.25
Judgmental	0.25	0.25	0.05	0.11	0.10	0.05	0.10	0.20	0.10
Apathetic	0.70	0.20	0.15	0.15	0.15	0.05	0.20	0.40	0.30
Assumptions	0.40	0.35	0.15	0.25	0.25	0.35	0.25	0.40	0.35

关键发现¶

GPT-5是最大"越权者"：85%回答建议具体治疗技术，47%推荐具体药物——能力越强越容易越界
模型家族内失败模式一致：LLaMA系列（3.1/3.3）、Claude系列（3.5/3.7）、Gemini系列（1.5/2.0）各自内部分布相似，但GPT家族跨版本差异大
GPT-3.5最"冷漠"：70%触发apathetic失败，远高于其他模型
LLM-as-Judge严重不可靠：所有LLM judge对Factual Consistency给出近满分，对Toxicity几乎一律最低分，即使专家已标记内容有害。最佳LLM judge（Claude-3.7-Sonnet）在对抗性任务上F1仅0.50

亮点与洞察¶

安全关键领域的LLM judge不可靠：这是全文最重要的发现之一。LLM judge系统性高估模型表现、忽视安全问题，在高风险领域（医疗、法律）中用LLM替代人类专家评估是危险的。
能力越强越危险的悖论：GPT-5作为最强模型，在对抗性测试中反而表现最差——更强的知识让它更倾向于给出具体但越权的临床建议。这对"scaling solves safety"的假设提出挑战。
经验驱动的对抗性设计：不同于预定义红队攻击，本文的对抗性问题从真实专家评估中涌现出的失败模式出发，更贴近实际临床风险。方法论可迁移到其他高风险领域。
标注质量极高：中位576.5词的文字理由、\(\alpha \geq 0.72\) 的一致性、逐一验证的专业资质——这是心理健康AI评估领域规模和质量的新标杆。

局限性¶

语言和文化单一：仅覆盖英语、美国心理健康从业者，跨文化/跨语言场景下的模型行为未评估
单轮交互：仅评估单轮QA，未涉及多轮对话中的上下文追踪、一致性维护等能力
数据源局限：CounselChat为公开论坛，问题和回答质量不代表真实临床场景
成本难以复制：100名专家的标注成本高昂，限制了更大规模的应用
模型时效性：评估的模型版本（GPT-4-0613等）已非最新，结论的持续适用性需验证

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐	首个百人规模专家参与的心理健康LLM评估基准
实验充分度	⭐⭐⭐⭐⭐	100名专家×2,000评估+9模型×1,080对抗性响应，标注一致性高
写作质量	⭐⭐⭐⭐⭐	临床维度定义严谨，实验流程清晰可复现
实用价值	⭐⭐⭐⭐⭐	对LLM医疗部署的安全警示和评估方法学有持久影响
综合	⭐⭐⭐⭐⭐	ICLR 2026 Oral，基准质量和影响力匹配顶级认可