Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization¶

CVPR 2026 医学图像单源域泛化域保形界因果因子人类知识整合糖尿病视网膜病变 MedGemma-4B LoRA

会议: CVPR 2026
arXiv: 2603.12369
代码: GitHub
领域: 医学影像 / 域泛化
关键词: 单源域泛化, 域保形界, 因果因子, 人类知识整合, 糖尿病视网膜病变, MedGemma-4B, LoRA

一句话总结¶

提出域保形界（DCB）理论框架量化域间因果差异并定义出可优化的一致度指标SDCD，据此精炼专家知识经LoRA注入MedGemma-4B，在8个DR和2个SOZ数据集上大幅超越单源域泛化SOTA。

研究背景与动机¶

医学图像分类的跨域泛化是核心挑战。关键瓶颈是域间存在未知的因果因子差异——如新生血管（Grade 4 DR的关键指标）仅出现在EyePACS而Messidor中没有，形成因果鸿沟。这直接违反了域泛化的理论必要条件"因果覆盖"。

现有DG方法在DR上未能一致超越ERM。表1展示了SPSD-ViT等方法的提升在统计上不显著（p=0.09）。更实际的单源域泛化（SDG）——仅用一个域训练跨域部署——挑战更大，因为单一源域几乎必然缺少目标域的某些因果因子。

但人类专家其实掌握着跨域通用的因果知识（如DR分级标准在所有设备/协议下都一致）。问题在于：专家知识是定性和模糊的（微动脉瘤15-60μm的"小红点"容易与静脉出血混淆），如何将其量化、精炼并高效整合到模型中？

方法详解¶

整体框架¶

Step 1: DCB理论量化域间因果因子关系差异 → Step 2: SDCD指标评估源-目标域一致性 → Step 3: 知识量化（YOLOv12检测病征→14维向量）→ Step 4: SDCD引导的贪心消融精炼知识子集 → Step 5: 精炼知识+图像构造多模态prompt，MedGemma-4B LoRA微调。

关键设计¶

域保形界（DCB）:
- 功能：提供分布无关的框架量化两域因果因子关系差异
- 核心思路：用SINDy/Koopman理论将因果因子建模为稀疏线性算子 \(\mathcal{K}\)，通过Mahalanobis距离构造置信区间 \(C\)。目标域样本的鲁棒性度量落入 \(C\) 内则以概率 \(\geq 1-\alpha\) 共享源域因果模式
- 设计动机：解决了DG理论中"因果覆盖无法量化"的关键空白，使泛化能力可预测
源域一致度（SDCD）与知识精炼:
- 功能：定义可优化的域一致性度量并据此筛选最有用的专家知识
- 核心思路：SDCD = 目标域中落入源域DCB的样本比例。证明SDCD与SDG精度正相关（Pearson r=0.692, p<0.02）。知识精炼：用YOLOv12检测眼底病征转为14维IoU向量，SDCD引导贪心消融移除降低一致度的知识成分
- 设计动机：无需训练即可预测源-目标域泛化可行性，知识精炼去除模糊/有害成分
GenEval多模态分类引擎:
- 功能：将精炼后的专家知识整合到VLM中实现跨域泛化分类
- 核心思路：精炼知识+图像构造多模态prompt，MedGemma-4B通过LoRA微调（rank=16，alpha=16，2.4%可训练参数）。LoRA作用于全部attention和MLP投影层
- 设计动机：MedGemma-4B已有医学视觉先验，LoRA高效注入域特定知识而不破坏通用能力

损失函数 / 训练策略¶

标准CAUSAL_LM损失。单域训练1-10小时，推理约424ms/样本。

实验关键数据¶

主实验¶

源域→目标域	方法	准确率	提升
EyePACS→Messidor	GenEval	69.5%	+14.9% vs DRGen
EyePACS→Messidor2	GenEval	80.5%	+15.1% vs DRGen
Messidor→EyePACS	GenEval	80.0%	+22.6% vs SPSD-ViT
MDG平均	GenEval	79.21%	+5.91% vs SPSD-ViT
SOZ跨站点	GenEval	F1=90.0%	+1.9% vs GPT-4o

消融实验¶

配置	关键指标	说明
无知识精炼	SDCD 59%, Acc 65%	原始知识含噪声和模糊成分
精炼后	SDCD 83%, Acc 73%	SDCD提升→精度提升，正相关验证
零样本MedGemma	均71.73%	域间差异大，需微调
GenEval vs CLIP-DR	F1 75.1% vs 46.8%	知识注入效果显著

关键发现¶

SDCD与SDG精度正相关（r=0.692, p<0.02），可在无目标域标签时预测泛化性
知识精炼从no-ablation到最优子集逐步提升SDCD和精度，验证了贪心消融的有效性
扩展SDG（1训6测）：GenEval均66.2% vs DECO 50.68%（+15.5%），大规模跨域优势明显

亮点与洞察¶

理论与实践紧密结合：DCB/SDCD从理论解释现有DG方法失败原因并给出改进路径。SDCD有独立价值——无需训练即可预测泛化可行性，可作为部署前的安全评估工具。

局限与展望¶

DCB假设连续可微的数据生成过程，尖锐阈值效应下有误差
人类知识获取依赖领域专家咨询，可扩展性受限
知识精炼的贪心消融非全局最优
仅在医学图像场景验证

评分¶

新颖性: ⭐⭐⭐⭐ DCB/SDCD理论框架有独立贡献，知识精炼范式新颖
实验充分度: ⭐⭐⭐⭐⭐ 8个DR+2个SOZ数据集大规模验证
写作质量: ⭐⭐⭐⭐ 理论推导严谨但密度较高
价值: ⭐⭐⭐⭐ 领域专家知识参数化注入VLM的范式可推广到其他垂直领域