KokoroChat: A Japanese Psychological Counseling Dialogue Dataset Collected via Role-Playing by Trained Counselors¶

会议: ACL 2025
arXiv: 2506.01357
代码: https://github.com/UEC-InabaLab/KokoroChat
领域: 对话系统 / 心理咨询
关键词: 心理咨询对话, 数据集构建, 角色扮演, 对话评估, 日语NLP

一句话总结¶

提出 KokoroChat，一个通过训练有素的咨询师角色扮演收集的日语心理咨询对话数据集，包含 6,589 段长对话及详细的客户反馈评分，用于提升 LLM 的心理咨询回复生成和对话评估能力。

领域现状: 心理健康问题是全球重大挑战，但专业心理咨询资源有限，研究者探索用语言模型生成共情回复来提供情感支持。
现有痛点: 众包数据收集需要严格的专业培训，成本高昂；真实咨询数据涉及隐私和伦理问题；LLM 增强的数据集（如 AugESC、SMILECHAT）存在内容冗余和多样性不足的问题，平均对话轮次远低于真实咨询。
核心矛盾: 高质量专业心理咨询对话数据的获取难度与 NLP 研究对大规模训练数据的需求之间的矛盾。
本文要解决什么: 构建一个兼具专业性、真实性和隐私安全的大规模心理咨询对话数据集。
切入角度: 采用角色扮演方法——由受过专业训练的咨询师同时扮演咨询师和来访者角色进行模拟对话，确保质量的同时规避隐私风险。
核心idea一句话: 让专业咨询师通过角色扮演模拟咨询对话，兼顾数据的专业性、规模和隐私安全。

通过线上平台匹配参与者 → 角色扮演对话（约1小时） → 客户反馈评分 → 数据清洗过滤 → 构建训练/测试集。

角色扮演数据收集: 480 位参与者（117 男 / 360 女），超过 1/3 持有专业资质，其余经 6 个月至 1 年系统学习。所有人完成 10 小时结构化培训。咨询师通过电脑键盘、来访者通过 LINE 移动应用沟通，模拟日本真实线上咨询场景。
20 维客户反馈体系: 由持有公认心理师资质和博士学位的专家设计，涵盖"对话整体印象"（10项：被理解感、尊重感、新洞察、希望感等）和"咨询技能评估"（10项：共情、提问、目标设定等），每项 0-5 分，满分 100 分。
数据质量控制: 过滤少于 30 轮发言、时长不足 30 分钟、或所有评分均为 3 分的对话，最终保留 6,589 段对话。

下游任务微调使用标准 SFT。回复生成任务：将连续同一说话者的发言合并，以完整对话历史为输入生成下一条咨询师回复。评分预测任务：给定完整对话预测 20 个维度的评分。

回复生成的自动评估（基于 Llama-3.1-Swallow-8B）：

模型	BLEU-1	BLEU-4	ROUGE-L	Dist-1	Dist-2
Llama-3.1（未微调）	17.32	2.25	16.96	1.04	6.86
GPT-4o	21.77	3.17	19.82	1.19	6.90
Kokoro-Low（低分数据）	25.39	5.39	27.28	2.42	12.98
Kokoro-High（高分数据）	27.03	6.00	28.00	2.33	13.08
Kokoro-Full（全量数据）	25.69	5.83	28.10	2.48	13.24

数据集统计对比（与现有数据集）：