EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease¶

会议: CVPR 2026 arXiv: 2602.19178 代码: 即将开源（含 grounding annotations）领域: 医学图像 关键词: 阿尔茨海默病诊断, 多模态视觉语言模型, 证据对齐, 强化微调, 3D 脑部分割

一句话总结¶

提出 EMAD，一个端到端多模态视觉-语言框架，为 AD 诊断生成结构化报告，通过分层 Sentence–Evidence–Anatomy (SEA) Grounding 将每个诊断声明显式关联到临床证据和 3D 脑部解剖，并用可执行规则驱动的 GRPO 强化微调确保临床一致性。

研究背景与动机¶

阿尔茨海默病 (AD) 的临床诊断需整合结构性 MRI、神经心理学测试、APOE 基因型、脑脊液生物标志物等多模态数据。现有 AI 方法存在三个核心痛点：

黑箱问题：多数模型只输出标签或风险评分，无法解释"为何做此判断"及"哪些证据支撑了判断"
多模态整合不足：许多方法仍在单一模态上操作，忽略跨模态依赖
临床指南脱节：现有 MLLM 生成的医学报告很少 (i) 将生成句子链接到具体临床条目，(ii) 将声明定位到 3D 脑部解剖结构，(iii) 强制遵循 NIA-AA 等诊断框架

EMAD 的核心动机是构建一个透明、可追溯、解剖学忠实的 AD 报告生成系统，让每个诊断声明都有证据链支撑。

方法详解¶

整体框架¶

EMAD 包含四个核心组件：(1) 多模态编码器，(2) 投影与融合层，(3) 文本解码器（报告生成），(4) 分层 SEA Grounding 头。

输入：给定 $\mathcal{X}=\{x_v, x_t\}$，其中 $x_v \in \mathbb{R}^{D \times H \times W}$ 为 3D sMRI，$x_t$ 为结构化临床变量（人口统计、遗传、认知测试、CSF 标志物等）。

视觉编码器 $E_v$：3D Vision Transformer 提取 patch-level 视觉嵌入 $h_v$
文本编码器 $E_t$：Longformer 编码临床文本特征 $h_t$
双向交叉注意力融合 (BCA)：$h_v'$ 和 $h_t'$ 通过线性投影映射到同维空间后，交替做 Q/KV 角色：

\[\mathbf{A}_{t \to v} = \text{Attn}(h_t', h_v', h_v'), \quad \mathbf{A}_{v \to t} = \text{Attn}(h_v', h_t', h_t')\]

残差连接保留模态特异信息：$z_v = h_v' + \mathbf{A}_{v \to t}$，$z_t = h_t' + \mathbf{A}_{t \to v}$

文本解码器：LLaMA 3.2-1B + rank-8 LoRA，以融合特征 $(z_v, z_t)$ 替换 prompt 中的 <sMRI> 和 <clinical> 占位符，自回归生成结构化报告

关键设计¶

Sentence–Evidence–Anatomy (SEA) Grounding：分层证据对齐机制
Sentence-to-Evidence：将每个生成句子 $\hat{s}_i$ 与临床证据集 $\mathcal{E}=\{e_1,\ldots,e_K\}$ 做多对多匹配。采用多正例 InfoNCE 损失，双向计算（evidence→sentence + sentence→evidence）：

$$\mathcal{L}_{\text{SE}} = \frac{1}{N}\sum_{i=1}^{N}(\ell_i^{e \to s} + \ell_i^{s \to e})$$

Evidence-to-Anatomy：如果证据带有解剖指针，用 evidence-conditioned 3D 分割网络定位对应脑区。在 Segformer3D decoder 每层的 self-attention 后插入轻量 cross-attention block，使视觉 token attend to 证据文本 token，输出体素级概率掩码 $\hat{\mathbf{M}}_i = \sigma(\text{Head}(\mathbf{Y}^{(L)}))$，用 Dice + BCE 损失训练
GTX-Distill（Grounding Transfer Distillation）：标签高效的 grounding 蒸馏策略
Stage 1：在小规模标注子集上训练 Teacher Grounder $G_T$，学习 sentence→evidence 分布 $q(e|s_i)$ 和解剖掩码
Stage 2：冻结 $G_T$，在大规模模型生成报告上训练 Student Grounder $G_\theta$，通过温度缩放 KL 散度蒸馏：

$$\mathcal{L}^{\text{distill}} = \tau^2 \sum_i \text{KL}(q_\tau(\cdot|\hat{s}_i) \| p_{\theta,\tau}(\cdot|\hat{s}_i))$$

仅需 25% grounding 标注即可保留 teacher 95% 的 R@3 性能

Executable-Rule GRPO（强化微调）：基于可验证奖励的 GRPO 强化学习

总奖励聚合三个可执行组件：$R = w_F R_F + w_{\text{NIA}} R_{\text{NIA-AA}} + w_C R_{\text{consistency}}$

格式奖励 $R_F$：检查 Reasoning/Diagnosis/Confidence 三个标签是否完整
NIA-AA 诊断奖励 $R_{\text{NIA-AA}}$：包含类别对齐（CN/MCI/Dementia）、生物标志物一致性（Aβ/tTau/pTau 阈值检查）、临床特征覆盖度
推理一致性奖励 $R_{\text{consistency}}$：用 NLI 模型验证 Reasoning⇒Diagnosis 的蕴含关系，防止逻辑矛盾

损失函数 / 训练策略¶

三阶段渐进训练：

Stage 1 (PT)：对比学习 + 重建学习对齐多模态表示
$\mathcal{L}_{\text{PT}} = \mathcal{L}_{\text{itc}} + \lambda_{\text{res}}(\mathcal{L}_{\text{res}}^v + \mathcal{L}_{\text{res}}^t)$
Stage 2 (SFT + GTX-Distill)：冻结编码器底层，微调顶层 + 投影层 + 解码器 LoRA
$\mathcal{L}_{\text{SFT}} = \mathcal{L}_{\text{txt}} + \lambda_{\text{KL}} \mathcal{L}^{\text{distill}}$
Stage 3 (RFT)：GRPO 强化微调，group size $G=4$，clipping $\epsilon=0.2$，KL 系数 $\beta=0.1$

实验关键数据¶

主实验¶

数据集：AD-MultiSense（基于 ADNI + AIBL，10,378 样本 / 2,619 受试者）

任务	指标	EMAD	M3D-LaMed (best baseline)	提升
CN vs CI	ACC	93.33%	91.28%	+2.05
CN vs CI	AUC	91.83%	89.16%	+2.67
CN vs CI	BERTScore	0.9120	0.8748	+0.037
CN vs MCI	ACC	92.82%	89.47%	+3.35
CN vs MCI	AUC	90.09%	88.06%	+2.03
三分类	ACC / Macro-F1	89.4% / 87.8%	84.7% / 82.5% (Alifuse)	+4.7 / +5.3

报告质量指标（CN vs CI）：BLEU 0.5422, METEOR 0.6790, ROUGE 0.7781 — 远超所有 baseline。

消融实验¶

配置	ACC (CN vs CI)	AUC	说明
仅 sMRI	71.24%	54.76%	视觉单模态严重不足
仅 Clinical	88.83%	82.69%	文本模态贡献大
Image + Clinical (EMAD)	93.33%	91.83%	多模态融合最优
EMAD w/o RFT	91.28%	—	无强化微调
+ Format reward only	91.45%	—	格式有效性 85.3→97.8%
+ Format + NIA-AA	92.10%	—	NIA-AA 一致性 74.1→86.7%
Full EMAD	92.82%	—	蕴含 68.2→87.6%

关键发现¶

仅用视觉特征 ACC 仅 71.24%（SEN 极高 95.33% 但 SPE 仅 12.31%），说明单模态倾向于将所有人预测为正例
GTX-Distill 在仅 25% 标注下保留 95% R@3，50% 标注下基本匹配全监督 teacher
Evidence-conditioned 分割使海马体 Dice 从 0.78 提升到 0.84
NIA-AA 标准下监督略优于 IWG-2 标准（93.33 vs 92.93 ACC）

亮点与洞察¶

证据链可追溯性：SEA Grounding 实现了"句子→临床证据→3D 解剖"的分层可解释性，每个诊断声明都有双重证据支撑
标签效率：GTX-Distill 大幅降低 grounding 标注需求，用 KL 蒸馏将 teacher 的对齐能力迁移到 student
可验证奖励设计：Executable-Rule GRPO 将临床指南编码为可程序化验证的奖励函数（格式/NIA-AA/蕴含性），无需人工偏好标注
训练策略精巧：三阶段渐进训练（PT→SFT→RFT）逐步建立对齐→忠实→可验证能力

局限性 / 可改进方向¶

数据集仅基于 ADNI + AIBL，样本多样性有限（主要为欧美白人群体）
3D sMRI 编码使用 ViT-based 架构，对高分辨率全脑扫描的计算开销较大
NLI-based 一致性奖励依赖外部模型质量，可能引入噪声
尚未探索纵向（longitudinal）数据的时序建模
仅在 AD 场景验证，推广到其他神经退行性疾病有待验证

评分¶

新颖性: ⭐⭐⭐⭐ SEA Grounding + GTX-Distill + Executable-Rule GRPO 三个创新点均有独立价值，组合后形成完整的可解释 AD 诊断框架
实验充分度: ⭐⭐⭐⭐ 多任务评估（二分类+三分类+报告质量+grounding+消融），但缺少与更多 3D 医学 VLM 的对比
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，但部分符号定义分散
价值: ⭐⭐⭐⭐ 可解释性医学 AI 的重要进展，executable reward 思路对医学 RLHF 有启发