Are LLMs Effective Psychological Assessors? Leveraging Adaptive RAG for Interpretable Mental Health Screening¶

会议: ACL 2025
arXiv: 2501.00982
代码: https://github.com/Fede-stack/Adaptive-RAG-for-Psychological-Assessment
领域: 社会计算
关键词: 心理健康筛查, LLM评估, 自适应RAG, 心理问卷, 社交媒体

一句话总结¶

本文提出基于自适应RAG的心理问卷引导筛查框架，通过检索用户Reddit帖子并让LLM代替用户填写标准化心理问卷（BDI-II等），在无需训练数据的情况下匹配或超越SOTA监督方法的抑郁筛查性能，并扩展到其他心理健康状况。

研究背景与动机¶

领域现状：标准化心理问卷（如BDI-II）是心理健康评估的核心工具，社交媒体数据为大规模筛查提供了丰富来源。
现有痛点：(1)直接用LLM分类难以匹配监督方法；(2)黑盒分类缺乏可解释性；(3)传统问卷需要专业人员面对面施测，不可扩展。
核心矛盾：社交媒体语言与临床诊断标准之间存在语义鸿沟；LLM难以直接将非结构化文本映射到诊断类别。
本文目标：让LLM像心理评估员一样，通过填写标准化问卷来进行可解释的心理健康筛查。
切入角度：将复杂的诊断任务分解为结构化的问卷项目评估——每个问卷项目对应一个子任务。
核心idea：自适应RAG检索相关帖子 + LLM逐项填写心理问卷 + 标准化评分。

方法详解¶

整体框架¶

用户Reddit帖子集 → 对每个帖子和每个问卷项目选项计算嵌入 → 自适应检索最相关帖子 → LLM根据检索到的帖子预测问卷项目得分 → 汇总得分 → 严重程度分级。

关键设计¶

自适应RAG: 自动为每个问卷项目确定需要检索的最优帖子数量，适应内容的语义密度和相关性。
问卷引导分解: 将抑郁/自伤/饮食障碍/病态赌博等复杂诊断分解为标准化问卷的逐项评估，每项有临床验证的评分标准。
多LLM对比: 测试6种LLM（Qwen 2.5 70B、DeepSeek V3、Phi-3系列、Claude、GPT-4o-mini）在不同提示策略下的表现。

损失函数 / 训练策略¶

完全无监督，无需训练数据。使用eRisk 2019/2020数据集评估。

实验关键数据¶

方法	BDI-II RMSE	分类准确率	说明
SOTA监督方法	基线	基线	需训练数据
aRAG + LLM	匹配/超越	匹配/超越	零训练数据
直接LLM提示	差	差	无问卷引导

关键发现¶

Qwen 2.5 70B在BDI-II RMSE上最低（约4.2），接近人类评估员水平。
自适应RAG比固定数量检索平均提升8.3%的预测准确率。
不同问卷项目的预测难度差异很大——与社交功能相关的项目最难预测。

跨病种评估¶

心理健康状况	问卷	最佳模型	最佳表现
抑郁症	BDI-II	Qwen 2.5 70B	匹配SOTA
自伤行为	SIQ	Claude-3.5	超越SOTA
饮食障碍	EAT-26	Claude-3.5	接近SOTA
病态赌博	SOGS	GPT-4o-mini	接近SOTA

问卷引导比直接提示LLM进行筛查效果显著更好。
无监督方法在BDI-II预测上匹配或超越需要训练数据的SOTA方法。
成功扩展到自伤、饮食障碍、病态赌博筛查，证明通用性。
闭源LLM（Claude、GPT-4o-mini）通常优于开源模型。

亮点与洞察¶

将临床评估实践引入计算方法：不发明新指标，而是让AI使用人类已验证的临床工具——这种"工具复用"思路在AI临床应用中非常明智。
可解释性优势：每个预测都可追溯到具体问卷项目和支持帖子，比黑盒分类更适合临床场景。
跨病种泛化：只需更换问卷即可评估不同心理健康状况，展示了框架的通用性。
无监督匹配有监督：在BDI-II预测上匹配或超越需要训练数据的SOTA方法，突破了无监督方法的性能上限。

局限与展望¶

虚拟评估员假设用户帖子充分反映心理状态，但用户可能选择性分享，导致信息不完整。
隐私和伦理问题需要关注——未经同意分析用户心理健康状态引发伦理争议。
问卷项目的语义可能与社交媒体语言不完全匹配，如临床术语与网络语言的语义鸿沟。
eRisk数据集可能存在样本偏差，不完全代表更广泛的社交媒体用户群体。
LLM对不同文化背景用户的心理状态理解可能有偏差（如东亚文化中抱怨的含蓄表达）。
问卷项目的固定评分范围（如BDI-II的0-3分）可能不足以捕捉微妙的心理状态变化。
未探索时序变化分析——用户心理状态可能随时间波动，单次评估可能不够。
闭源LLM（Claude、GPT-4o-mini）通常优于开源模型，但依赖闭源API引发可复现性和成本问题。

评分¶

新颖性: ⭐⭐⭐⭐ 问卷引导LLM心理评估的思路新颖
实验充分度: ⭐⭐⭐⭐ 多LLM多问卷评估
写作质量: ⭐⭐⭐⭐ 研究问题清晰
价值: ⭐⭐⭐⭐⭐ 对数字心理健康有重要实用意义