KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors¶
会议: ACL 2025
arXiv: 2506.01357
代码: https://github.com/UEC-InabaLab/KokoroChat
领域: 对话系统 / 心理咨询
关键词: 心理咨询对话, 数据集构建, 角色扮演, 对话评估, 日语NLP
一句话总结¶
提出 KokoroChat,一个通过训练有素的咨询师角色扮演收集的日语心理咨询对话数据集,包含 6,589 段长对话及详细的客户反馈评分,用于提升 LLM 的心理咨询回复生成和对话评估能力。
研究背景与动机¶
- 领域现状: 心理健康问题是全球重大挑战,但专业心理咨询资源有限,研究者探索用语言模型生成共情回复来提供情感支持。
- 现有痛点: 众包数据收集需要严格的专业培训,成本高昂;真实咨询数据涉及隐私和伦理问题;LLM 增强的数据集(如 AugESC、SMILECHAT)存在内容冗余和多样性不足的问题,平均对话轮次远低于真实咨询。
- 核心矛盾: 高质量专业心理咨询对话数据的获取难度与 NLP 研究对大规模训练数据的需求之间的矛盾。
- 本文要解决什么: 构建一个兼具专业性、真实性和隐私安全的大规模心理咨询对话数据集。
- 切入角度: 采用角色扮演方法——由受过专业训练的咨询师同时扮演咨询师和来访者角色进行模拟对话,确保质量的同时规避隐私风险。
- 核心idea一句话: 让专业咨询师通过角色扮演模拟咨询对话,兼顾数据的专业性、规模和隐私安全。
方法详解¶
整体框架¶
通过线上平台匹配参与者 → 角色扮演对话(约1小时) → 客户反馈评分 → 数据清洗过滤 → 构建训练/测试集。
关键设计¶
- 角色扮演数据收集: 480 位参与者(117 男 / 360 女),超过 1/3 持有专业资质,其余经 6 个月至 1 年系统学习。所有人完成 10 小时结构化培训。咨询师通过电脑键盘、来访者通过 LINE 移动应用沟通,模拟日本真实线上咨询场景。
- 20 维客户反馈体系: 由持有公认心理师资质和博士学位的专家设计,涵盖"对话整体印象"(10项:被理解感、尊重感、新洞察、希望感等)和"咨询技能评估"(10项:共情、提问、目标设定等),每项 0-5 分,满分 100 分。
- 数据质量控制: 过滤少于 30 轮发言、时长不足 30 分钟、或所有评分均为 3 分的对话,最终保留 6,589 段对话。
损失函数 / 训练策略¶
下游任务微调使用标准 SFT。回复生成任务:将连续同一说话者的发言合并,以完整对话历史为输入生成下一条咨询师回复。评分预测任务:给定完整对话预测 20 个维度的评分。
实验关键数据¶
主实验¶
回复生成的自动评估(基于 Llama-3.1-Swallow-8B):
| 模型 | BLEU-1 | BLEU-4 | ROUGE-L | Dist-1 | Dist-2 |
|---|---|---|---|---|---|
| Llama-3.1(未微调) | 17.32 | 2.25 | 16.96 | 1.04 | 6.86 |
| GPT-4o | 21.77 | 3.17 | 19.82 | 1.19 | 6.90 |
| Kokoro-Low(低分数据) | 25.39 | 5.39 | 27.28 | 2.42 | 12.98 |
| Kokoro-High(高分数据) | 27.03 | 6.00 | 28.00 | 2.33 | 13.08 |
| Kokoro-Full(全量数据) | 25.69 | 5.83 | 28.10 | 2.48 | 13.24 |
消融实验¶
数据集统计对比(与现有数据集):
| 数据集 | 人工构建 | 评分项 | 语言 | 对话数 | 平均轮次 |
|---|---|---|---|---|---|
| AugESC | ✗ | 0 | 英 | 65,000 | 26.7 |
| ESConv | ✓ | 2 | 英 | 1,300 | 29.5 |
| Client-Reactions | ✓ | 4 | 中 | 2,382 | 78.5 |
| KokoroChat | ✓ | 20 | 日 | 6,589 | 91.2 |
关键发现¶
- 即使仅用低评分数据(Kokoro-Low),微调后也显著优于未微调模型,证明数据集本身的价值
- 高评分数据(Kokoro-High)效果最好,虽然数据量更少,强调了训练数据质量的重要性
- 人类评估显示微调模型与 GPT-4o 仍有差距,GPT-4o 与人类高分咨询师也有明显差距
- 对话特征与评分的相关性分析:来访者总字数与评分正相关最强(ρ=0.42),咨询师回复时间与评分负相关(ρ=-0.21)
亮点与洞察¶
- 角色扮演的数据收集方式巧妙解决了真实数据隐私风险和 LLM 生成数据质量低的双重问题
- 20 维评分体系非常细致,为对话评估提供了高质量标注
- 数据规模(6,589 段 × 91.2 平均轮次)远超现有人工构建的心理咨询数据集
- 填补了日语心理咨询对话数据的空白
局限性 / 可改进方向¶
- 仅限日语,跨语言泛化性待验证
- 角色扮演终究不等同于真实咨询,来访者的情感深度可能不足
- 评分主观性无法完全消除,同一段对话不同评分者可能给出不同分数
- 基础模型仅用 8B 参数的 Llama-3.1,更大模型+微调的效果未探索
相关工作与启发¶
- 与 ESConv 对比:KokoroChat 对话更长(91 vs 30轮)、评分维度更丰富(20 vs 2)
- 与 LLM 增强数据集对比:人工数据虽规模较小但质量更高、多样性更强
- 启发:角色扮演式数据收集可推广到其他需要专业知识的对话场景(如法律咨询、医疗问诊)
补充分析¶
- 话题分布显示家庭问题占 20.2%、职场问题 17.0%、心理健康 14.7%,覆盖真实咨询的主要诉求
- 评分分布呈单峰形,均值 63.58 / 中位数 64.00,略偏右,表明大多数对话获得中等偏上的反馈
- 评分维度间高度正相关(ρ>0.6),特别是"被理解感"与"满意度"和"价值感"的相关性最强
- 评分预测实验:微调后的 Llama-3.1 在 ACCsoft 上达到 80.10%,远超 GPT-4o 的 75.27%
- 4,900 个不同的咨询师-来访者配对,增加了对话的多样性
评分¶
- 新颖性: ⭐⭐⭐⭐ 角色扮演收集思路新颖,但方法本身技术含量不高
- 实验充分度: ⭐⭐⭐⭐ 自动评估+人工评估+评分预测,多角度验证
- 写作质量: ⭐⭐⭐⭐ 数据集描述详尽,统计分析清晰
- 价值: ⭐⭐⭐⭐ 高质量数据集贡献,填补日语心理咨询数据空白