跳转至

A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment

会议: AAAI 2026
arXiv: 2603.10034
代码: 无
领域: 对话系统 / 医疗AI / LLM应用
关键词: 认知刺激治疗, 多方对话, 动态用户建模, 原则驱动策略, 强化学习

一句话总结

针对老年认知障碍患者的群体认知刺激治疗(CST)场景,提出GCSD系统:通过多说话人上下文控制、动态参与者状态建模(soft prompt)、认知刺激注意力损失和多维奖励策略优化四个模块,基于Qwen-2.5-3B微调,在500+小时真实粤语CST对话和1万+模拟对话上训练,BLEU-4达27.93超越GPT-4o等大模型,A/B测试胜率50% vs GPT-4o的39%。

背景与动机

全球认知障碍患者超5500万,认知刺激治疗(CST)是有效的非药物干预手段,通过群体互动和集体回忆来维持或改善认知功能。但传统CST高度依赖专业治疗师、固定时间地点,成本高且难以规模化。

现有数字化认知训练系统存在三个层次的问题: 1. 早期系统(机器人对话、元记忆训练等):局限于刚性的问答格式,无法产生自然开放的对话 2. 小模型方案:规模不足以学习CST背后的18条治疗原则(如"鼓励新想法""重视意见""运用回忆"等) 3. 通用LLM直接应用:架构主要为双人对话设计,存在说话人混淆、缺乏治疗推理、无法动态建模用户认知状态三大问题

核心问题

如何构建一个能够模拟专业治疗师进行多方群体认知刺激对话的AI系统?核心挑战在于:

  1. 对话范式不匹配:主流LLM为一对一设计,多方对话中会出现说话人混淆和上下文丢失
  2. 缺乏认知刺激推理:通用LLM能写流畅有共情的文本,但不具备CST所需的深层治疗策略推理能力
  3. 静态用户建模:无法动态追踪每位老年人的认知状态变化,无法提供个性化自适应的刺激

此外还面临数据稀缺问题——真实CST对话数据是粤语的、专业领域的、多方的,极度稀缺。

方法详解

整体框架

GCSD采用"数据构建+四模块模型"的框架: - 输入:多方对话历史(包含治疗师[Assistant]和多位老年人[Human_i]的发言) - 输出:治疗师的下一轮回应 - 训练:两阶段——先在模拟数据上预训练学习CST框架,再在真实数据上微调捕捉真实语言风格 - 优化:先SFT(联合三个损失),再MRPO(多维奖励策略优化)

关键设计

  1. 数据构建——原则引导的场景模拟(PGSS)
  2. 真实数据:500+小时粤语CST录像,经第三方转录标注,规则清洗后结构化为多方对话格式
  3. 模拟数据:用GPT-4o生成1万+对话。prompt设计包含:任务定义(30+轮多方对话)、角色设定(1治疗师+5-6患者)、CST活动类别(艺术创作、主题讨论等)、分阶段对话提示(开头/中间/结尾),以及显式列出18条CST原则要求模型严格遵守
  4. 双数据策略的目的:模拟数据补充真实数据中稀缺的主题和交互模式,让模型预学习CST基本框架

  5. 多说话人上下文控制器

  6. 用特殊token标记角色:[Assistant]标记治疗师,[Human_i]标记第i位老年人
  7. 两阶段训练:先在模拟数据上学习结构化的、原则对齐的对话流程,再在真实数据上微调学习真实语言细微之处
  8. 设计简单但有效,解决多方对话中的角色追踪问题

  9. 动态参与者认知状态建模(DPSM)

  10. 核心思想:为每位参与者生成动态soft prompt,注入到主模型中实现个性化
  11. Soft Prompt生成网络:一个带注意力机制的MLP,输入为用户状态特征的拼接向量
    • 输入层:线性变换 + GELU激活 → 512维隐表示
    • 隐藏层:自注意力(Q/K/V投影)+ GELU → 256维
    • 输出层:线性 + tanh → \(D_{\text{prompt}}\)维soft prompt(=512维,匹配主模型embedding维度)
  12. 集成方式:soft prompt作为"虚拟token"前置到输入token embeddings上,通过自注意力影响生成
  13. 时间平滑正则:\(\mathcal{L}_{\text{Smoothness}} = \|P_{\text{soft},t} - P_{\text{soft},t-1}\|_2^2\),防止prompt剧烈波动(对脆弱群体至关重要)

  14. 认知刺激聚焦注意力损失(CSFAL)

  15. 目的:让模型的注意力机制学会聚焦于认知刺激相关的关键词
  16. 做法:用关键词提取工具从参考回应中提取关键词,计算模型注意力权重与目标分布之间的加权MSE
  17. \(\mathcal{L}_{\text{CSFAL}} = \frac{1}{M}\sum_{j=1}^{M}\lambda_j(a_j - \eta_j)^2\),其中\(\lambda_j = \exp(\kappa \cdot \eta_j)\)为显著性权重,放大关键项的惩罚

损失函数 / 训练策略

Phase 1: SFT联合损失 $\(\mathcal{L}_{\text{SFT}} = \gamma_1 \cdot \mathcal{L}_{\text{Gen}} + \gamma_2 \cdot \mathcal{L}_{\text{CSFAL}} + \gamma_3 \cdot \mathcal{L}_{\text{Smoothness}}\)$ - \(\mathcal{L}_{\text{Gen}}\):标准自回归交叉熵 - \(\mathcal{L}_{\text{CSFAL}}\):认知刺激聚焦注意力损失 - \(\mathcal{L}_{\text{Smoothness}}\):soft prompt时间平滑正则

Phase 2: 多维奖励策略优化(MRPO) - 改编自GRPO算法(DeepSeek-R1),对每个prompt采样G个候选输出 - 多维奖励信号组合:BLEU-4(n-gram覆盖)+ BERTScore(语义相似度)+ Distinct-2(多样性)+ 结构正确性([Assistant]token使用是否正确的二值奖励) - KL惩罚防止偏离SFT模型太远

实现细节:基模型Qwen-2.5-3B,单块A100-80G,AdamW(权重衰减0.01),余弦退火学习率调度(峰值5e-5),梯度累积到batch size 16,FP16混合精度

实验关键数据

真实数据集结果

模型 ROUGE-L BLEU-4 BERTScore Distinct-2 Relevance↑ Empathy↑ Fluency↑
GCSD-3b 27.63 27.93 80.12 74.82 4.15 3.50 3.53
DeepSeek-671B (5-shot) 23.58 24.36 78.27 73.27 4.10 3.48 3.42
GPT-4o 25.76 20.14 73.79 69.15 4.00 3.45 3.35
DeepSeek-671B 22.54 22.42 79.98 76.86 4.08 3.45 3.46
Doubao-Pro 24.87 22.36 75.16 71.46 3.95 3.33 3.20
ERNIE 18.32 9.16 66.93 56.28 3.33 2.95 3.00

核心发现:3B小模型在专业领域微调后BLEU-4超越671B大模型14.7%,说明领域数据+针对性设计的价值

A/B人工测试

对比 GCSD胜 GCSD负 平局
vs ERNIE 75% 10% 15%
vs GPT-4o 50% 39% 11%
vs DeepSeek-671B 43% 40% 17%

消融实验要点

变体 BLEU-4 下降幅度
GCSD-3b (完整) 27.93
w/o CT(去模拟数据预训练) 26.51 -1.42
w/o DPSM(去动态状态建模) 23.15 -4.78
w/o CSFAL(去注意力损失) 24.98 -2.95
  • DPSM贡献最大(去掉后掉点近5个点),说明动态个性化建模是核心
  • CSFAL也很重要,注意力引导对治疗推理能力提升显著
  • 模拟数据预训练的"启动效应"虽然绝对提升不大但不可忽视

亮点

  • Soft prompt做用户个性化:不改模型参数,用一个轻量MLP生成动态soft prompt注入到输入中,既实现了个性化又保持了模型主干不变——这个设计非常优雅且可迁移
  • 注意力监督(CSFAL):用关键词提取的外部信号直接监督模型注意力分布,是一种cheap但有效的弱监督方式,可推广到其他需要特定关注点的对话场景
  • 3B打败671B:再次证明在垂直领域,小模型+领域数据+针对性设计 >> 通用大模型直接用
  • 双数据策略:用GPT-4o生成符合18条治疗原则的模拟数据进行预训练,再用真实数据微调——有效的domain adaptation pipeline
  • 多维规则奖励的MRPO:不需要reward model,组合多个自动指标做奖励信号驱动GRPO——实用且可行

局限性 / 可改进方向

  • 缺乏临床验证:所有评估都是计算指标和短期人工评估,没有长期临床试验证明实际治疗效果,这是最大的gap
  • 仅文本模态:真实CST涉及视觉材料(照片)、声音语调等,纯文本系统丢失大量信息,尤其对认知障碍老人来说非语言线索至关重要
  • 粤语单一语言:数据和评估仅限粤语,泛化性未验证
  • 安全性未充分讨论:在医疗场景中,幻觉问题和不当回应的风险很高,论文仅在未来工作中提及
  • 人工评估规模小:仅6位老人及家属参与评估,样本量有限
  • DPSM的用户状态特征来源不明:论文未详细说明"认知状态、历史交互"具体如何量化和提取

与相关工作的对比

本文GCSD 早期认知训练系统 通用LLM (GPT-4o等)
对话形式 多方群体 主要一对一 一对一
CST原则 显式嵌入(18条) 无或隐式
用户建模 动态soft prompt 静态
规模化 数字系统,随时可用 有限 可以但不专业
语言能力 专注粤语CST 有限 通用但不够专业

与Jiang et al. 2023的前作(同一团队)相比,本文核心升级在于:(1)从一对一到多方对话,(2)引入动态用户建模,(3)加入注意力监督和奖励策略优化。

启发与关联

  • Soft prompt个性化思路可迁移到其他需要动态用户适配的对话场景(如教育辅导、心理咨询)
  • 注意力监督的方法可用于任何需要让模型关注特定方面内容的任务(如安全对齐中关注风险词汇)
  • 原则驱动的数据生成(PGSS)是一个通用的数据增强范式:把领域原则/规范显式写入生成prompt,用强模型生成训练弱模型
  • 对AI for Healthcare领域有参考价值:如何在医疗对话中平衡流畅性与治疗原则遵循

评分

  • 新颖性: ⭐⭐⭐⭐ 多方认知刺激对话是新问题,四模块设计有创新但各技术组件比较标准
  • 实验充分度: ⭐⭐⭐⭐ 自动+人工+A/B+消融齐全,但临床验证缺失、人工评估样本小
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述充分,但部分技术细节(如用户状态特征)语焉不详
  • 实用价值: ⭐⭐⭐⭐ 解决真实社会需求,但从系统到临床部署还有很长的路
  • 技术深度: ⭐⭐⭐ 各模块设计较为直接,soft prompt + 注意力监督 + GRPO改编,组合创新为主