GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation¶

会议: ECCV 2024
arXiv: 2407.05540
代码: https://gtp-4-o.github.io/
领域: 医学图像 / 多模态学习
关键词: 异构图, 多模态融合, 模态缺失, 图提示, 生存预测

一句话总结¶

提出 GTP-4o，一种基于异构图的全模态生物医学学习框架，通过图提示机制补全缺失模态、知识引导的层次聚合融合基因组学/病理图像/细胞图/文本四种异构临床模态。

研究背景与动机¶

领域现状：生物医学多模态融合（基因组+病理图像+文本报告）已在疾病诊断中取得进展，主流方法通过交叉注意力或最优传输对齐不同模态。

现有痛点：(1) 生物医学模态间的语义异质性极大——基因组和病理图像之间不像自然图像与文本那样有直观的对应关系；(2) 现有方法用统一的注意力处理所有跨模态关系，忽略了不同模态对之间关系的本质差异（如基因→图像是"表达"，图像→文本是"描述"）；(3) 临床实践中模态缺失是常态，但多数方法假设数据完整。

核心矛盾：需要一种表示方法既能捕获不同模态和跨模态关系上的异质属性，又能优雅地处理模态缺失情况。

本文目标：从基因组学、病理图像、细胞空间图和诊断文本四种异构临床模态中学习统一表示，同时处理训练/测试时的模态缺失。

切入角度：利用异构图天然支持不同类型节点和边的特性，将多模态融合重构为异构图上的消息传递问题。

核心 idea：将每个模态实例作为异构图节点（带模态类型属性），跨模态关系作为异构边（带关系语义属性），用图提示（graph prompting）为缺失模态生成幻觉节点，再通过知识引导的元路径聚合进行跨模态信息融合。

方法详解¶

整体框架¶

输入四种模态的特征通过异构图嵌入映射到统一图空间 → 模态缺失时通过图提示生成幻觉节点补全 → 全局元路径邻居发现+局部多关系聚合 → 任务特定头做分类/生存预测。

关键设计¶

异构图嵌入 (Heterogeneous Graph Embedding):
- 功能：显式捕获模态实例（节点）和跨模态关系（边）上的异构属性
- 核心思路：构建图 \(\mathcal{G} = \{\mathcal{V}, \mathcal{E}, \mathcal{A}, \mathcal{R}\}\)，节点属性集 \(\mathcal{A} = \{G, I, C, T\}\) 对应四种模态，边属性集 \(\mathcal{R} = \{\text{"express"}, \text{"depict"}, \text{"atomize"}, \text{"intra-modal"}\}\) 编码跨模态语义关系。初始边权重用头尾节点的余弦相似度
- 设计动机：相比把所有跨模态交互塞进同一个注意力矩阵，异构图显式区分了"基因组→图像"和"图像→文本"的关系类型，使模型能学习关系特定的聚合策略
模态提示补全 (Modality-prompted Completion):
- 功能：当某模态缺失时，生成幻觉图节点补全图表示
- 核心思路：训练一个图提示模块 \(g_\phi\)，为缺失模态生成幻觉节点特征和拓扑连接。提示模块学习将不完整图嵌入映射到完整图嵌入的空间，使下游聚合能正常工作
- 设计动机：临床中隐私/伦理/技术限制导致模态缺失普遍，与其在缺失时降级使用不完整特征，不如主动补全维持融合效果
知识引导的层次聚合:
- 功能：在异构图上进行有意义的跨模态信息融合
- 核心思路：分两层——(a) 全局元路径邻居：基于领域知识定义元路径（如基因→图像→文本），发现图中的高阶异构邻居关系；(b) 局部多关系聚合：对每种边类型分别做消息传递，然后融合不同关系的聚合结果
- 设计动机：元路径利用领域先验减少无效的节点交互，多关系聚合尊重不同关系的语义特异性

损失函数 / 训练策略¶

胶质瘤分级：交叉熵损失。生存预测：Cox 回归损失（负对数部分似然）。模态缺失在训练时随机模拟。

实验关键数据¶

主实验¶

任务	GTP-4o	PathomicFusion	MCAT	备注
胶质瘤分级 (ACC%)	最优	次优	较低	完整模态
生存预测 (C-index)	最优	较低	次优	完整模态
模态缺失场景	性能稳定	显著下降	显著下降	缺少1-2个模态

消融实验¶

配置	效果	说明
完整 GTP-4o	最优	异构图+提示+层次聚合
无图提示补全	模态缺失时显著下降	补全模块关键
同构图替代异构图	下降	异构属性有助于区分关系
无元路径（仅局部聚合）	下降	全局高阶关系重要
2 模态 vs 4 模态	4 模态显著更优	支持模态越多效果越好

关键发现¶

异构图嵌入相比同构图在融合效果上有明显优势，显式的关系类型建模确实有帮助
图提示补全在模态缺失场景下效果显著——相比简单的零向量填充，性能提升明显
四模态联合（基因组+图像+细胞图+文本）效果优于任何模态子集

亮点与洞察¶

异构图作为多模态融合范式是一个优雅的框架——不同模态是不同类型的节点，不同关系是不同类型的边，这比"拼接+注意力"的范式更结构化
图提示补全缺失模态的想法很新颖，可迁移到任何多模态场景（如自动驾驶的传感器缺失）
用 LLM (MiniGPT-4) 为病理图像生成文本描述作为第四模态，是一种创造性的数据增强

局限与展望¶

文本模态依赖 MiniGPT-4 生成的描述而非真实的诊断报告，质量和信息量有限
元路径需要领域专家手动设计，自动化元路径发现可作为未来方向
仅在胶质瘤数据上验证，泛化到其他癌症类型需要额外验证
异构图的构建和聚合增加了模型复杂度，推理效率需要关注

评分¶

新颖性: ⭐⭐⭐⭐ 异构图+图提示的组合在生物医学多模态中是首创
实验充分度: ⭐⭐⭐⭐ 完整/缺失模态、消融、多任务全面对比
写作质量: ⭐⭐⭐⭐ 框架图清晰，模块化设计描述详细
价值: ⭐⭐⭐⭐ 为临床多模态学习提供了处理模态异构性和缺失的系统方案