GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis¶

会议: CVPR 2026
arXiv: 2603.09446
代码: 待确认
领域: 医学图像分析 / 图神经网络 / 计算机辅助诊断
关键词: 图学习, 多视图诊断, 视图间/视图内依赖, 计算机辅助诊断, 数据缺失, 异构图

一句话总结¶

提出基于多异构图 (MHG) 的 GIIM 框架，通过四类边关系建模同一病灶跨视图动态变化和不同病灶间空间关联，并设计四种缺失视图填充策略，在 CT/MRI/乳腺 X 光三种模态上均显著优于现有方法。

背景与动机¶

临床诊断需要综合分析多个视图(如多期 CT、CC/MLO 乳腺影像)中异常之间的复杂依赖关系——同一病灶在不同期相的增强/衰减模式变化、不同病灶间的空间共现关系等。然而现有 CADx 方法（CNN、Transformer、甚至 GNN）通常独立处理各视图或简单拼接特征，忽略了视图内 (intra-view) 多病灶间关系和视图间 (inter-view) 时序/空间动态。此外，临床中由于协议限制、技术故障或患者原因，常出现视图缺失，进一步降低模型可靠性。

核心问题¶

如何同时建模多视图医学影像中的四类依赖关系（同病灶跨视图、单视图不同病灶、多视图不同病灶、单-多视图聚合），并在视图缺失时保持鲁棒性？

方法详解¶

整体框架¶

两阶段训练: (1) 对每个视图独立训练 ConvNeXt 特征提取器; (2) 将多病灶、多视图特征构建为多异构图 (MHG)，用异构消息传递 GNN 进行关系推理和分类。

关键设计¶

节点表示: 两类节点——单视图节点 \(N_{single}^v = f_v(l_v)\) (某个视图下某病灶的特征) 和多视图节点 \(M_{multi} = \|_{v=1}^V N_{single}^v\) (所有视图特征拼接的聚合节点)。
四类边关系:
\(E_{intra}\): 同一病灶跨不同视图的连接 → 捕获时序增强变化
\(E_{s-m}\): 单视图节点到其多视图聚合节点 → 整合各期信息
\(E_{inter-s}\): 同一视图内不同病灶的连接 → 建模空间共现
\(E_{inter-m}\): 不同病灶的聚合节点间 → 高层病灶上下文关系
异构消息传递: 对每个节点分别从 single-view 邻居和 multi-view 邻居聚合消息 (各有独立权重矩阵 \(\mathbf{W}_{single}^k\), \(\mathbf{W}_{multi}^k\))，拼接后经非线性变换更新。
缺失视图处理四策略: Constant (零向量)、Learnable (可学习参数)、RAG-based (检索最相似完整样本填充)、Covariance-based (基于协方差距离检索)。

损失函数 / 训练策略¶

单视图阶段: 标准分类交叉熵
图模型: 5 层 SAGEConv (512→256→128→64→输出类数)，最后一层直接预测分类概率
ConvNeXt 特征提取器独立训练后冻结，MHG 端到端训练

实验关键数据¶

数据集	方法	Accuracy (%)	AUC (%)
Liver (CT)	NN-based	75.45	89.09
	Attention-based	73.41	88.53
	GIIM	78.20	91.05
VinDr-Mammo	NN-based	67.48	82.21
	Attention-based	68.09	81.00
	GIIM	71.17	82.54
BreastDM (MRI)	NN-based	80.85	87.35
	Attention-based	85.10	76.37
	GIIM	87.23	89.02

多视图 vs 单视图: 一致提升约 12% Acc (Liver)、7.8% Acc (Mammo)
缺失视图实验: GIIM (constant) 在 miss-view test 上显著优于 NN/ML/Attention 方法; RAG 和 Covariance 策略在 full-view test 上更优

消融实验要点¶

缺失率 η 从 0.0 到 1.0 时，GIIM 各策略 full-view accuracy 维持 72-78% (Liver)，NN-based 降至 72.5%
Full-view test 中 RAG/Covariance 最优; Miss-view test 中 Constant 更稳定——简单零向量让模型学会依赖其他视图
四类边缺任何一种都导致性能下降，\(E_{intra}\) (同病灶跨期) 影响最大

亮点 / 我学到了什么¶

四类边的设计完整覆盖了临床诊断中的关系推理模式，比简单拆 attention 更有可解释性
缺失视图的 trade-off 发现很实用: 生成式填充在完整数据下更好，零向量在缺失数据下更好——因为零向量是唯一的"缺失标记"，让模型学会忽略缺失节点
异构消息传递的分类聚合思路 (单视图邻居 vs 多视图邻居分别聚合) 避免了边类型信息丢失

局限性 / 可改进方向¶

单视图特征提取器和图模型分阶段训练，端到端联合训练可能进一步提升
图结构固定由数据决定 (病灶数量/视图数)，未探索动态图构建或注意力加权边
ConvNeXt 作为特征backbone相对保守，ViT 或 SAM 等更强backbone可能进一步提升
三个数据集规模相对有限 (最大 920 例)，大规模验证不足

与相关工作的对比¶

Phase Attention (Wang et al. 2022): intra-phase + inter-phase attention，但处理固定大小输入且忽略病灶间关系; GIIM 用 GNN 灵活处理变数量病灶
SSL-MNGCN (Ibrahim et al. 2022): 用 GCN 处理乳腺 X 光纹理/空间特征图，但未建模跨视图时序关系; GIIM 同时建模 intra- 和 inter-view
mmFormer (Zhang et al. 2022): 多模态 Transformer 处理不完整脑肿瘤分割，但针对体素级任务; GIIM 面向病灶级分类

评分¶

新颖性: ⭐⭐⭐⭐ (四类异构边 + 缺失视图策略组合设计完整)
实验充分度: ⭐⭐⭐⭐ (三种模态、缺失视图消融、四种填充策略对比)
写作质量: ⭐⭐⭐ (内容详实但结构略繁杂)
价值: ⭐⭐⭐ (医学多视图诊断的通用框架)