A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment¶

会议: AAAI 2026
arXiv: 2603.10034
代码: 无
领域: 对话系统 / 医疗AI / LLM应用
关键词: 认知刺激治疗, 多方对话, 动态用户建模, 原则驱动策略, 强化学习

一句话总结¶

针对老年认知障碍患者的群体认知刺激治疗（CST）场景，提出GCSD系统：通过多说话人上下文控制、动态参与者状态建模（soft prompt）、认知刺激注意力损失和多维奖励策略优化四个模块，基于Qwen-2.5-3B微调，在500+小时真实粤语CST对话和1万+模拟对话上训练，BLEU-4达27.93超越GPT-4o等大模型，A/B测试胜率50% vs GPT-4o的39%。

背景与动机¶

全球认知障碍患者超5500万，认知刺激治疗（CST）是有效的非药物干预手段，通过群体互动和集体回忆来维持或改善认知功能。但传统CST高度依赖专业治疗师、固定时间地点，成本高且难以规模化。

现有数字化认知训练系统存在三个层次的问题： 1. 早期系统（机器人对话、元记忆训练等）：局限于刚性的问答格式，无法产生自然开放的对话 2. 小模型方案：规模不足以学习CST背后的18条治疗原则（如"鼓励新想法""重视意见""运用回忆"等） 3. 通用LLM直接应用：架构主要为双人对话设计，存在说话人混淆、缺乏治疗推理、无法动态建模用户认知状态三大问题

核心问题¶

如何构建一个能够模拟专业治疗师进行多方群体认知刺激对话的AI系统？核心挑战在于：

对话范式不匹配：主流LLM为一对一设计，多方对话中会出现说话人混淆和上下文丢失
缺乏认知刺激推理：通用LLM能写流畅有共情的文本，但不具备CST所需的深层治疗策略推理能力
静态用户建模：无法动态追踪每位老年人的认知状态变化，无法提供个性化自适应的刺激

此外还面临数据稀缺问题——真实CST对话数据是粤语的、专业领域的、多方的，极度稀缺。

方法详解¶

整体框架¶

GCSD采用"数据构建+四模块模型"的框架： - 输入：多方对话历史（包含治疗师[Assistant]和多位老年人[Human_i]的发言） - 输出：治疗师的下一轮回应 - 训练：两阶段——先在模拟数据上预训练学习CST框架，再在真实数据上微调捕捉真实语言风格 - 优化：先SFT（联合三个损失），再MRPO（多维奖励策略优化）

关键设计¶

数据构建——原则引导的场景模拟（PGSS）
真实数据：500+小时粤语CST录像，经第三方转录标注，规则清洗后结构化为多方对话格式
模拟数据：用GPT-4o生成1万+对话。prompt设计包含：任务定义（30+轮多方对话）、角色设定（1治疗师+5-6患者）、CST活动类别（艺术创作、主题讨论等）、分阶段对话提示（开头/中间/结尾），以及显式列出18条CST原则要求模型严格遵守
双数据策略的目的：模拟数据补充真实数据中稀缺的主题和交互模式，让模型预学习CST基本框架
多说话人上下文控制器
用特殊token标记角色：[Assistant]标记治疗师，[Human_i]标记第i位老年人
两阶段训练：先在模拟数据上学习结构化的、原则对齐的对话流程，再在真实数据上微调学习真实语言细微之处
设计简单但有效，解决多方对话中的角色追踪问题
动态参与者认知状态建模（DPSM）
核心思想：为每位参与者生成动态soft prompt，注入到主模型中实现个性化
Soft Prompt生成网络：一个带注意力机制的MLP，输入为用户状态特征的拼接向量
- 输入层：线性变换 + GELU激活 → 512维隐表示
- 隐藏层：自注意力（Q/K/V投影）+ GELU → 256维
- 输出层：线性 + tanh → $D_{\text{prompt}}$维soft prompt（=512维，匹配主模型embedding维度）
集成方式：soft prompt作为"虚拟token"前置到输入token embeddings上，通过自注意力影响生成
时间平滑正则：$\mathcal{L}_{\text{Smoothness}} = \|P_{\text{soft},t} - P_{\text{soft},t-1}\|_2^2$，防止prompt剧烈波动（对脆弱群体至关重要）
认知刺激聚焦注意力损失（CSFAL）
目的：让模型的注意力机制学会聚焦于认知刺激相关的关键词
做法：用关键词提取工具从参考回应中提取关键词，计算模型注意力权重与目标分布之间的加权MSE
$\mathcal{L}_{\text{CSFAL}} = \frac{1}{M}\sum_{j=1}^{M}\lambda_j(a_j - \eta_j)^2$，其中$\lambda_j = \exp(\kappa \cdot \eta_j)$为显著性权重，放大关键项的惩罚

损失函数 / 训练策略¶

Phase 1: SFT联合损失 $$\mathcal{L}_{\text{SFT}} = \gamma_1 \cdot \mathcal{L}_{\text{Gen}} + \gamma_2 \cdot \mathcal{L}_{\text{CSFAL}} + \gamma_3 \cdot \mathcal{L}_{\text{Smoothness}}$$ - $\mathcal{L}_{\text{Gen}}$：标准自回归交叉熵 - $\mathcal{L}_{\text{CSFAL}}$：认知刺激聚焦注意力损失 - $\mathcal{L}_{\text{Smoothness}}$：soft prompt时间平滑正则

Phase 2: 多维奖励策略优化（MRPO） - 改编自GRPO算法（DeepSeek-R1），对每个prompt采样G个候选输出 - 多维奖励信号组合：BLEU-4（n-gram覆盖）+ BERTScore（语义相似度）+ Distinct-2（多样性）+ 结构正确性（[Assistant]token使用是否正确的二值奖励） - KL惩罚防止偏离SFT模型太远

实现细节：基模型Qwen-2.5-3B，单块A100-80G，AdamW（权重衰减0.01），余弦退火学习率调度（峰值5e-5），梯度累积到batch size 16，FP16混合精度

实验关键数据¶

真实数据集结果¶

模型	ROUGE-L	BLEU-4	BERTScore	Distinct-2	Relevance↑	Empathy↑	Fluency↑
GCSD-3b	27.63	27.93	80.12	74.82	4.15	3.50	3.53
DeepSeek-671B (5-shot)	23.58	24.36	78.27	73.27	4.10	3.48	3.42
GPT-4o	25.76	20.14	73.79	69.15	4.00	3.45	3.35
DeepSeek-671B	22.54	22.42	79.98	76.86	4.08	3.45	3.46
Doubao-Pro	24.87	22.36	75.16	71.46	3.95	3.33	3.20
ERNIE	18.32	9.16	66.93	56.28	3.33	2.95	3.00

核心发现：3B小模型在专业领域微调后BLEU-4超越671B大模型14.7%，说明领域数据+针对性设计的价值

A/B人工测试¶

对比	GCSD胜	GCSD负	平局
vs ERNIE	75%	10%	15%
vs GPT-4o	50%	39%	11%
vs DeepSeek-671B	43%	40%	17%

消融实验要点¶

变体	BLEU-4	下降幅度
GCSD-3b (完整)	27.93	—
w/o CT（去模拟数据预训练）	26.51	-1.42
w/o DPSM（去动态状态建模）	23.15	-4.78
w/o CSFAL（去注意力损失）	24.98	-2.95

DPSM贡献最大（去掉后掉点近5个点），说明动态个性化建模是核心
CSFAL也很重要，注意力引导对治疗推理能力提升显著
模拟数据预训练的"启动效应"虽然绝对提升不大但不可忽视

亮点¶

Soft prompt做用户个性化：不改模型参数，用一个轻量MLP生成动态soft prompt注入到输入中，既实现了个性化又保持了模型主干不变——这个设计非常优雅且可迁移
注意力监督（CSFAL）：用关键词提取的外部信号直接监督模型注意力分布，是一种cheap但有效的弱监督方式，可推广到其他需要特定关注点的对话场景
3B打败671B：再次证明在垂直领域，小模型+领域数据+针对性设计 >> 通用大模型直接用
双数据策略：用GPT-4o生成符合18条治疗原则的模拟数据进行预训练，再用真实数据微调——有效的domain adaptation pipeline
多维规则奖励的MRPO：不需要reward model，组合多个自动指标做奖励信号驱动GRPO——实用且可行

局限性 / 可改进方向¶

缺乏临床验证：所有评估都是计算指标和短期人工评估，没有长期临床试验证明实际治疗效果，这是最大的gap
仅文本模态：真实CST涉及视觉材料（照片）、声音语调等，纯文本系统丢失大量信息，尤其对认知障碍老人来说非语言线索至关重要
粤语单一语言：数据和评估仅限粤语，泛化性未验证
安全性未充分讨论：在医疗场景中，幻觉问题和不当回应的风险很高，论文仅在未来工作中提及
人工评估规模小：仅6位老人及家属参与评估，样本量有限
DPSM的用户状态特征来源不明：论文未详细说明"认知状态、历史交互"具体如何量化和提取

与相关工作的对比¶

	本文GCSD	早期认知训练系统	通用LLM (GPT-4o等)
对话形式	多方群体	主要一对一	一对一
CST原则	显式嵌入（18条）	无或隐式	无
用户建模	动态soft prompt	无	静态
规模化	数字系统，随时可用	有限	可以但不专业
语言能力	专注粤语CST	有限	通用但不够专业

与Jiang et al. 2023的前作（同一团队）相比，本文核心升级在于：(1)从一对一到多方对话，(2)引入动态用户建模，(3)加入注意力监督和奖励策略优化。

启发与关联¶

Soft prompt个性化思路可迁移到其他需要动态用户适配的对话场景（如教育辅导、心理咨询）
注意力监督的方法可用于任何需要让模型关注特定方面内容的任务（如安全对齐中关注风险词汇）
原则驱动的数据生成（PGSS）是一个通用的数据增强范式：把领域原则/规范显式写入生成prompt，用强模型生成训练弱模型
对AI for Healthcare领域有参考价值：如何在医疗对话中平衡流畅性与治疗原则遵循

评分¶

新颖性: ⭐⭐⭐⭐ 多方认知刺激对话是新问题，四模块设计有创新但各技术组件比较标准
实验充分度: ⭐⭐⭐⭐ 自动+人工+A/B+消融齐全，但临床验证缺失、人工评估样本小
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分，但部分技术细节（如用户状态特征）语焉不详
实用价值: ⭐⭐⭐⭐ 解决真实社会需求，但从系统到临床部署还有很长的路
技术深度: ⭐⭐⭐ 各模块设计较为直接，soft prompt + 注意力监督 + GRPO改编，组合创新为主