An LLM-Based Simulation Framework for Embodied Conversational Agents in Psychological Counseling¶

会议: AAAI 2026
arXiv: 2410.22041v3
代码: https://github.com/AIR-DISCOVER/ECAs-Dataset (有)
领域: LLM/NLP · 智能体模拟 · 心理咨询
关键词: 具身对话智能体, 心理咨询模拟, 认知行为治疗, LLM数据合成, 记忆驱动对话

一句话总结¶

提出 ECAs 框架，基于认知行为治疗(CBT)等心理学理论，利用 LLM 将真实咨询案例扩展为具身认知记忆空间，模拟心理咨询中来访者的完整认知过程，生成高保真度的咨询对话数据，在专家评估和自动评估中均显著优于基线。

背景与动机¶

心理咨询数据对训练新手咨询师、开发AI辅助系统和自动诊断至关重要，但隐私敏感性导致真实数据极度稀缺。现有方案分两类：(1) 人工模拟对话——真实但成本高、覆盖有限；(2) AI合成——可扩展但只能捕获表面语言模式，无法刻画心理过程的内隐复杂性（如核心信念、自动思维等），且自训练循环容易导致分布偏移和模式崩溃。近期 Patient-Psi、Roleplay-doh 等工作虽有初步进展，但缺乏与心理学理论的深度融合。

核心问题¶

如何开发一个扎根于心理学和咨询理论的 LLM 模拟框架，使其能生成具有真实感、丰富性和临床一致性的咨询对话数据？核心挑战在于：心理过程（尤其是来访者的认知链条）是隐性的、多层次的，单纯的角色扮演无法复现。

方法详解¶

整体框架¶

ECAs 框架分三步走：Step 1 (REAL) 从真实数据集 D4（中文抑郁症咨询数据集）中提取来访者基本信息；Step 2 (SIM) 利用 LLM 将基本信息扩展为完整的个人画像 + 社交画像，并据此生成具身认知记忆空间（包含信念、认知过程、事实记忆、知觉记忆）；Step 3 (REAL) 在对话时通过上下文驱动的动态记忆检索生成真实感回应。

关键设计¶

六大模拟原则 (SP1-SP6)：从心理学理论推导出的约束条件——(SP1) 表征全生命阶段经历，用具身认知理论构建跨童年/青春期/青年/中年/近期的事实记忆；(SP2) 模拟认知过程，基于CBT框架建模核心信念→中间信念→自动思维的认知链；(SP3) 整合知觉记忆，不仅有事实还有情绪/行为/生理反应；(SP4) 建模社会关系网络，依五阶段建模人际动态；(SP5) 保持数据合成一致性；(SP6) 启用上下文驱动的记忆检索。
双画像生成 (Client Profile)：Part 1 个人画像——从 D4 真实数据出发，LLM 生成来访者的人格、外貌、爱好、梦想、日常习惯、近期经历，并回溯成长环境和过往经历，构建连贯的心理发展轨迹。Part 2 社交画像——基于个人画像模拟来访者在各阶段的社交网络变化，反映社会环境如何触发和维持抑郁症状。
4阶段具身记忆生成范式：基于 CBT 理论的 LLM 生成流程——Phase 1: 生成核心信念 \(B_c\) 和中间信念 \(B_i\)；Phase 2: 识别各阶段关键事件，建立因果关系；Phase 3: 将关键事件按 4W1H 格式（Who/What/When/Where/How）丰富为事实记忆；Phase 4: 从自动思维 \(A\)（与 \(B_c\)、\(B_i\) 关联）推导出情绪反应 \(\xi_e\)、行为反应 \(\xi_b\)、生理反应 \(\xi_p\)，形成知觉记忆 \(V(c)\)。
上下文驱动的动态记忆检索：对话时 Client Agent 先由 LLM 分析对话历史 \(H_t\) 和咨询师问题 \(q_t\)，确定所需记忆类型，然后通过关键词匹配筛选候选记忆，再用余弦相似度排序选取 top-3 最相关记忆指导回复生成。检索范围限于事实记忆、知觉记忆和自动思维（排除核心/中间信念，因为真实来访者不会直接复述这些）。
先导研究与迭代优化：经历三轮迭代——第一轮咨询师审核记忆构建是否符合心理学原则；第二轮评估记忆脚本与画像一致性（发现纯脚本评估无法捕捉对话中的功能）；第三轮生成对话数据评估记忆的临床实用性，最终从 D4 中精选覆盖抑郁风险、饮食、睡眠、自杀风险、社交生活五大领域的 14 个高频咨询问题。

训练策略¶

无需训练，完全基于 GPT-4o 的 prompt 工程实现各阶段生成，属于 zero-shot 范式。

实验关键数据¶

数据集规模¶

ECAs-dataset 包含 451 个 Client Agent 的详细画像，其中 100 个拥有完整的具身记忆空间（每个400~1500条独立记忆，平均134.6个记忆节点），远超 CharacterDial (1节点) 和 PATIENT-ψ (1节点)。

专家评估 (5位持证咨询师, 6个 Client Agent)¶

维度	ECAs vs GPT-4o	ECAs vs D4(人类)	统计显著性
必要性	+0.57 (p=0.074)	+1.40 (p<0.001)	F(2,87)=16.17, η²=0.271
充分性	+1.07 (p=0.001)	+1.50 (p<0.001)	F(2,87)=15.80, η²=0.266
保真度	+1.00 (p=0.005)	—	F(2,87)=5.19, η²=0.107
一致性	—	+0.57 (p=0.079)	F(2,87)=3.22, η²=0.069

自动评估1: 抑郁/自杀风险分类 (macro F1)¶

任务	GPT-4o	D4(人类)	ECAs(本文)
抑郁风险	0.35	0.40	0.42
自杀风险	0.59	0.59	0.67

自动评估2: 对话质量总分 (/20)¶

方法	保真	全面	一致	合理	具体	总分
D4(人类)	2.40/5	2.91/7	1.03/2	1.98/3	0.96/2	9.28/20
ECAs(本文)	4.66/5	6.26/7	1.99/2	2.98/3	1.97/2	17.90/20

消融实验要点¶

论文没有提供模块级消融，但三轮先导研究展示了迭代优化的必要性：纯脚本评估无法替代对话级评估，最终需要精选覆盖五大临床领域的问题集
自杀风险分类提升最显著(+8 F1 vs GPT-4o)，表明具身记忆对高风险话题的表达尤为关键

亮点¶

心理学理论深度融合：不是简单地让 LLM 角色扮演，而是系统性地将 CBT 的信念-思维-反应链条建模为记忆空间，这是与 Patient-Psi 等工作的本质区别
4阶段记忆生成范式：从信念→事件→事实记忆→知觉记忆的级联生成，每一步都有心理学理论支撑，确保生成的记忆不是"编故事"而是"模拟认知"
检索时排除信念层：来访者在真实咨询中不会主动说出核心信念，只会表现为自动思维和情绪反应——这个设计细节体现了对咨询过程的深刻理解
三轮专家迭代：框架设计不是一蹴而就，通过持证咨询师的反馈逐步完善，增强了方法的临床可信度

局限性 / 可改进方向¶

仅针对抑郁症：框架基于 D4 数据集（抑郁诊断），其他心理障碍（焦虑、PTSD等）的适用性未验证
依赖中文数据：D4 是中文数据集，跨语言和跨文化的泛化能力未探讨
无显式消融：缺乏对各模块（个人画像 vs 社交画像 vs 各阶段记忆 vs 检索机制）的独立贡献分析
咨询师 Agent 较简单：论文重点在 Client Agent，咨询师侧没有建模其治疗策略和干预逻辑
评估局限：自动评估用 GPT-4o 评 GPT-4o 生成的数据，可能存在偏差；专家评估样本量偏小(6个Agent, 5位专家)

与相关工作的对比¶

vs Patient-Psi (EMNLP 2024)：Patient-Psi 也用 LLM 模拟心理咨询来访者，但其认知建模较浅（仅1个记忆节点），不包含事实记忆和生命阶段记忆。ECAs 平均134.6个记忆节点，且有完整的 CBT 认知链
vs Roleplay-doh (EMNLP 2024)：Roleplay-doh 侧重于通过领域专家定义原则来约束 LLM 模拟，但没有显式的记忆空间和认知过程建模
vs CharacterDial (EMNLP 2024)：面向社交角色而非心理咨询场景，仅有属性画像，无信念/记忆体系

启发与关联¶

将 CBT 认知模型系统化为 LLM Agent 的记忆架构，这种"理论→Agent设计"的范式可迁移到其他需要深度角色模拟的场景（如教育、医疗问诊模拟）
上下文驱动的分类型记忆检索（先关键词筛选再语义排序）是一种实用的记忆管理方案，比纯向量检索更可控

评分¶

新颖性: ⭐⭐⭐⭐ 将CBT理论系统化为LLM Agent的具身记忆生成框架，理论整合度高
实验充分度: ⭐⭐⭐ 有专家评估和自动评估双管齐下，但缺乏消融实验且样本量偏小
写作质量: ⭐⭐⭐⭐ 结构清晰，理论推导与实现对应紧密，但部分公式符号冗余
价值: ⭐⭐⭐⭐ 为心理咨询AI提供了高质量数据生成方案和公开数据集，实用价值明显