GLEAM: A Multimodal Imaging Dataset and HAMM for Glaucoma Classification¶
会议: CVPR 2026
arXiv: 2603.12800
代码: 待确认
领域: 医学图像 / 多模态学习 / 眼科影像分析
关键词: 青光眼分类, 多模态成像, 层级注意力掩码建模, 三模态数据集, 自监督表示学习
一句话总结¶
提出首个公开三模态青光眼数据集 GLEAM(SLO 眼底图 + 环乳头 OCT + 视野偏差图,标注四个疾病阶段),以及层级注意力掩码建模 (HAMM) 框架,将跨模态自监督表示学习聚焦在编码器端,实现多模态青光眼精准分类。
背景与动机¶
青光眼是全球主要不可逆致盲疾病,其诊断和分期需要综合多种检查模态: 眼底图像观察视盘形态、OCT 测量视网膜神经纤维层厚度、视野检查评估功能性损伤。然而现有公开数据集要么单模态、要么缺少分期标注,无法支持多模态联合诊断研究。同时,如何有效融合形态差异巨大的三种模态 (2D 彩色图/灰度截面/统计偏差图) 仍是挑战——简单拼接或后期融合难以利用模态间互补信息。
核心问题¶
- 如何构建一个高质量的三模态青光眼标注数据集以填补领域空白?
- 如何设计自监督框架有效融合形态差异巨大的三种眼科模态信息?
方法详解¶
整体框架¶
HAMM 采用"掩码建模 + 层级注意力"范式: 对三种模态的输入进行随机掩码,用层级注意力编码器提取跨模态表示,轻量解码器负责重建——核心表示学习负担集中在编码器端。预训练后冻结或微调编码器用于下游分类。
关键设计¶
- GLEAM 数据集: 收集配对的 SLO (扫描激光检眼镜) 眼底图像、环乳头 OCT 图像和视野模式偏差图 (VF-PD),由专业眼科医师标注正常/早期/中期/晚期四个青光眼阶段。首个公开三模态青光眼数据集,含完整的模态-阶段标注。
- 层级注意力编码器: 对三种模态分别 tokenize 后,在编码器内部通过层级注意力机制实现模态间信息交互——浅层关注局部模态内特征,深层实现跨模态全局融合。
- 掩码建模预训练: 随机掩码各模态的部分 patch,编码器学习从可见 patch 和其他模态信息中推断被遮挡内容,迫使模型学习跨模态互补表示。
- 轻量解码器: 重建仅由轻量解码器完成,编码器不需要保留低级重建细节,从而学到更具判别力的高级表示。
损失函数 / 训练策略¶
- 预训练: 掩码重建损失 (MSE 或类似像素/patch 级损失)
- 下游分类: 标准交叉熵分类损失
- 两阶段: 先自监督预训练编码器,再微调用于四分类任务
实验关键数据¶
- GLEAM 数据集覆盖四个青光眼阶段的配对三模态数据
- HAMM 在 GLEAM 上的多模态分类性能优于多种基线 (单模态方法、简单拼接融合、其他多模态预训练方法)
- 三模态联合比任意双模态或单模态组合提供更好的分类精度,验证了模态互补性
- 层级注意力编码器比标准 ViT 编码器在跨模态融合上更有效
消融实验要点¶
- 去掉任一模态均导致性能下降,VF-PD (功能性) + OCT (结构性) 互补性最强
- 掩码比例对预训练效果有影响——过高掩码率在部分模态上重建困难
- 轻量解码器 vs 重解码器: 轻量版本在下游分类任务上表现更优,证明"编码器负重"策略有效
亮点 / 我学到了什么¶
- 数据集贡献本身即有重大意义: 首个公开的三模态 + 四阶段标注青光眼数据集
- "将表示学习负担集中在编码器、保持解码器轻量"的设计理念与 MAE 思路一致但针对多模态做了合理扩展
- 选择 SLO + OCT + VF-PD 三种模态覆盖了形态学 (结构) 和功能学两个维度,与临床诊断逻辑吻合
局限性 / 可改进方向¶
- 数据集规模尚未公布具体数量,临床数据采集成本高,样本量可能有限
- HAMM 在其他多模态医学任务 (如肿瘤诊断、心血管分析) 上的泛化性需探索
- 未涉及模态缺失场景——临床中可能某次就诊只做了部分检查
- 四阶段分类的粒度是否足够精细值得讨论,连续严重度评估可能更实用
与相关工作的对比¶
- RETFound / 眼底基础模型: 单模态 (眼底图) 自监督预训练,对 OCT 和视野数据未覆盖; GLEAM + HAMM 显式建模三模态
- MAE / BEiT 系列: 单模态掩码建模; HAMM 扩展到多模态掩码,通过层级注意力实现跨模态交互
- 多模态融合方法 (早期/晚期融合): 简单拼接或投票难以利用模态间互补; HAMM 在编码器内部通过注意力实现深度交互
评分¶
- 新颖性: ⭐⭐⭐⭐ (首个三模态青光眼数据集 + 层级掩码建模)
- 实验充分度: ⭐⭐⭐ (数据集和方法均有验证,但具体数据表格未能获取详细数值)
- 写作质量: ⭐⭐⭐
- 价值: ⭐⭐⭐⭐ (数据集填补空白,对眼科 AI 有直接推动)