Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering¶

会议: ACL 2026
arXiv: 2604.12210
代码: 无
领域: 医学NLP
关键词: 标准化病人模拟, 认知障碍, 转向向量, 随机调制, 临床训练

一句话总结¶

提出 StsPatient，通过从对比指令/回复对中提取领域特定的转向向量（Steering Vector），配合随机 Token 调制（STM）机制控制注入概率来模拟不同认知障碍领域和严重程度的标准化病人，相比 prompt engineering 方法在临床真实性上平均提升 11.23%，在严重程度可控性上超越最佳基线 18.54%。

研究背景与动机¶

领域现状：认知障碍患者（如阿尔茨海默症、轻度认知障碍）在记忆、注意力等多个认知领域表现出不同程度的缺陷，这些缺陷会显著影响其语言模式。临床工作人员需要与这类患者沟通的专门训练，传统方法依赖人类演员扮演标准化病人（SP）。

现有痛点：(1) 认知障碍的异质性极高——同一诊断可能表现为不同领域（注意力/记忆/执行功能等）的缺陷，且严重程度从轻度到重度不等，人类演员难以覆盖这种多样性且成本高昂；(2) 现有 LLM-based SP 方法主要依赖 prompt engineering，但 prompt 本质上是离散的、粗粒度的，无法精确控制特定认知领域的缺陷程度；(3) 传统转向向量方法通过缩放系数 \(\alpha\) 控制强度，但 \(\alpha\) 与行为输出的关系高度非线性且不稳定。

核心矛盾：需要在多个认知领域 × 多个严重程度的组合空间中实现精细、稳定、可控的模拟，但 prompt 太粗、传统转向向量太不稳定。

本文目标：设计一个可以 (1) 针对不同认知领域提取特定的行为调制信号，(2) 在连续的严重程度谱上稳定控制缺陷表现的框架。

切入角度：从生物神经科学中突触传递的概率性本质获得启发——突触强度不是由信号幅度调节，而是由神经递质释放的概率调节。类比地，不改变转向向量的幅度，而是改变其在每个 token 上的应用概率。

核心 idea：固定转向向量的强度（只要足够触发缺陷），用伯努利采样控制每个 token 是否注入转向向量，概率 \(s\) 直接映射到严重程度。

方法详解¶

整体框架¶

两阶段：(1) 领域特定转向向量提取——用 LLM 合成对比数据集（障碍 vs 健康），计算隐状态均值差异得到转向向量；(2) 推理时随机 Token 调制——用伯努利分布以概率 \(s\) 决定每个 token 是否注入转向向量。

关键设计¶

领域特定转向向量提取（双通道对比）:
- 功能：捕捉特定认知领域缺陷的语言表征方向
- 核心思路：构建两种对比子集：Prompt 对比子集（"扮演记忆障碍患者" vs "扮演健康人"的系统指令对）和 Response 对比子集（同一临床问题下障碍回复 vs 健康回复对）。从对比对的隐状态差异中提取转向向量 \(\mathbf{v}_d = \text{mean}(\mathbf{h}^+ - \mathbf{h}^-)\)，并自动选择正负样本嵌入质心距离最大的层
- 设计动机：双通道设计同时捕捉"指令意图"和"行为表征"两个层面的缺陷特征，比单一来源更全面
随机 Token 调制（STM）:
- 功能：在连续严重程度谱上实现稳定可控的缺陷模拟
- 核心思路：定义严重程度 \(s \in [0,1]\)。先通过线搜索找到最小有效缩放系数 \(\alpha^*\)（在 [1,6] 范围内搜索，确保缺陷可观察但不导致胡言乱语）。推理时，每个 token 生成步采样 \(z_t \sim \text{Bernoulli}(s)\)，仅当 \(z_t=1\) 时将 \(\alpha^* \cdot \mathbf{v}_d\) 注入隐状态
- 设计动机：传统方法调 \(\alpha\) 来控制强度，但 \(\alpha\) 与输出行为高度非线性——小调 \(\alpha\) 可能无变化，大调 \(\alpha\) 可能崩溃。STM 将控制变量从幅度转换为概率，统计上 \(s\) 越大，被调制的 token 越多，效果更平滑可预测
自动参数选择:
- 功能：消除人工调参，只暴露严重程度 \(s\) 作为用户控制旋钮
- 核心思路：\(\alpha^*\) 通过线搜索自动确定（满足有效性+完整性两个标准），最优层 \(l^*\) 通过最大化正负样本嵌入质心距离自动选择
- 设计动机：传统 SV 方法需要手动调节 \(\alpha\) 和选择层，限制了实用性

实验关键数据¶

主实验（GPT-5 治疗师场景，LLM + 人类评估）¶

方法	CDC↑(LLM)	CDC↑(Human)	IDI↓(LLM)	IDI↓(Human)	Auth↑	Tra↑
Direct Prompt	0.54	0.68	0.47	0.42	3.32	3.40
PATIENT-ψ	0.50	0.60	0.52	0.48	3.83	3.96
Roleplay-doh	0.58	0.68	0.44	0.38	3.78	3.72
StsPatient	最优	最优	最优	最优	最优	最优

消融实验¶

配置	说明
无 STM (仅缩放 α)	严重程度控制不稳定，高 \(\alpha\) 导致输出崩溃
仅 Prompt 对比	缺少行为层面信息，缺陷表现不够自然
仅 Response 对比	缺少意图层面信号，领域特异性降低
完整 StsPatient	所有指标最优

关键发现¶

StsPatient 在所有指标上平均提升 11.23%，在严重程度可控性上超越最佳基线 18.54%
STM 是关键：传统缩放方法在 α>4 时经常产生不连贯输出，而 STM 即使在 s=0.9 时也保持语言完整性
不同认知领域的转向向量确实编码了不同的缺陷特征：注意力缺陷向量和记忆缺陷向量在表征空间中方向明显不同
严重程度 s 与临床评分的对应关系是单调的，虽然不是线性的，但满足教育模拟器的需求

亮点与洞察¶

从突触传递概率到 token 调制概率的类比非常优雅——将神经科学中的控制原理迁移到 LLM 行为控制。这种"概率门控"思路可以广泛用于任何需要连续可控行为调制的场景
转向向量的领域特异性证明了 LLM 的隐状态空间确实编码了不同认知领域的语言特征，这对可解释性研究也有启发
无需微调的推理时干预使得方法可以即插即用到不同 LLM 上

局限与展望¶

严重程度 s 与标准临床评分（如 MMSE）之间的映射不是直接的线性关系
认知领域目前手动定义，能否自动发现认知障碍的潜在维度？
转向向量的稳定性依赖于合成对比数据的质量
仅在英文数据上验证，跨语言（如中文认知障碍患者的语言特征）有待探索
未与真实临床数据（如实际 AD 患者对话录音）做对比验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ STM 机制的生物启发设计非常新颖，领域特异性转向向量的应用也是首创
实验充分度: ⭐⭐⭐⭐ 有 LLM 和人类评估，但缺少与真实临床数据的对比
写作质量: ⭐⭐⭐⭐⭐ 动机和方法论述清晰，图示直观
价值: ⭐⭐⭐⭐ 对临床 AI 训练有实际意义，STM 方法可迁移到其他行为控制场景