跳转至

Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

会议: CVPR 2026
arXiv: 2603.12369
代码: GitHub
领域: 医学影像 / 域泛化
关键词: 单源域泛化, 域保形界, 因果因子, 人类知识整合, 糖尿病视网膜病变, MedGemma-4B, LoRA

一句话总结

提出域保形界(DCB)理论框架量化域间因果差异并定义出可优化的一致度指标SDCD,据此精炼专家知识经LoRA注入MedGemma-4B,在8个DR和2个SOZ数据集上大幅超越单源域泛化SOTA。

研究背景与动机

医学图像分类的跨域泛化是核心挑战。关键瓶颈是域间存在未知的因果因子差异——如新生血管(Grade 4 DR的关键指标)仅出现在EyePACS而Messidor中没有,形成因果鸿沟。这直接违反了域泛化的理论必要条件"因果覆盖"。

现有DG方法在DR上未能一致超越ERM。表1展示了SPSD-ViT等方法的提升在统计上不显著(p=0.09)。更实际的单源域泛化(SDG)——仅用一个域训练跨域部署——挑战更大,因为单一源域几乎必然缺少目标域的某些因果因子。

但人类专家其实掌握着跨域通用的因果知识(如DR分级标准在所有设备/协议下都一致)。问题在于:专家知识是定性和模糊的(微动脉瘤15-60μm的"小红点"容易与静脉出血混淆),如何将其量化、精炼并高效整合到模型中?

方法详解

整体框架

Step 1: DCB理论量化域间因果因子关系差异 → Step 2: SDCD指标评估源-目标域一致性 → Step 3: 知识量化(YOLOv12检测病征→14维向量)→ Step 4: SDCD引导的贪心消融精炼知识子集 → Step 5: 精炼知识+图像构造多模态prompt,MedGemma-4B LoRA微调。

关键设计

  1. 域保形界(DCB):

    • 功能:提供分布无关的框架量化两域因果因子关系差异
    • 核心思路:用SINDy/Koopman理论将因果因子建模为稀疏线性算子 \(\mathcal{K}\),通过Mahalanobis距离构造置信区间 \(C\)。目标域样本的鲁棒性度量落入 \(C\) 内则以概率 \(\geq 1-\alpha\) 共享源域因果模式
    • 设计动机:解决了DG理论中"因果覆盖无法量化"的关键空白,使泛化能力可预测
  2. 源域一致度(SDCD)与知识精炼:

    • 功能:定义可优化的域一致性度量并据此筛选最有用的专家知识
    • 核心思路:SDCD = 目标域中落入源域DCB的样本比例。证明SDCD与SDG精度正相关(Pearson r=0.692, p<0.02)。知识精炼:用YOLOv12检测眼底病征转为14维IoU向量,SDCD引导贪心消融移除降低一致度的知识成分
    • 设计动机:无需训练即可预测源-目标域泛化可行性,知识精炼去除模糊/有害成分
  3. GenEval多模态分类引擎:

    • 功能:将精炼后的专家知识整合到VLM中实现跨域泛化分类
    • 核心思路:精炼知识+图像构造多模态prompt,MedGemma-4B通过LoRA微调(rank=16,alpha=16,2.4%可训练参数)。LoRA作用于全部attention和MLP投影层
    • 设计动机:MedGemma-4B已有医学视觉先验,LoRA高效注入域特定知识而不破坏通用能力

损失函数 / 训练策略

标准CAUSAL_LM损失。单域训练1-10小时,推理约424ms/样本。

实验关键数据

主实验

源域→目标域 方法 准确率 提升
EyePACS→Messidor GenEval 69.5% +14.9% vs DRGen
EyePACS→Messidor2 GenEval 80.5% +15.1% vs DRGen
Messidor→EyePACS GenEval 80.0% +22.6% vs SPSD-ViT
MDG平均 GenEval 79.21% +5.91% vs SPSD-ViT
SOZ跨站点 GenEval F1=90.0% +1.9% vs GPT-4o

消融实验

配置 关键指标 说明
无知识精炼 SDCD 59%, Acc 65% 原始知识含噪声和模糊成分
精炼后 SDCD 83%, Acc 73% SDCD提升→精度提升,正相关验证
零样本MedGemma 均71.73% 域间差异大,需微调
GenEval vs CLIP-DR F1 75.1% vs 46.8% 知识注入效果显著

关键发现

  • SDCD与SDG精度正相关(r=0.692, p<0.02),可在无目标域标签时预测泛化性
  • 知识精炼从no-ablation到最优子集逐步提升SDCD和精度,验证了贪心消融的有效性
  • 扩展SDG(1训6测):GenEval均66.2% vs DECO 50.68%(+15.5%),大规模跨域优势明显

亮点与洞察

  • 理论与实践紧密结合:DCB/SDCD从理论解释现有DG方法失败原因并给出改进路径。SDCD有独立价值——无需训练即可预测泛化可行性,可作为部署前的安全评估工具。

局限与展望

  • DCB假设连续可微的数据生成过程,尖锐阈值效应下有误差
  • 人类知识获取依赖领域专家咨询,可扩展性受限
  • 知识精炼的贪心消融非全局最优
  • 仅在医学图像场景验证

相关工作与启发

  • vs SPSD-ViT: DR域泛化SOTA但假设目标域可交换,无法判断新域是否在训练支持外;GenEval通过DCB提供部署前评估
  • vs BiomedCLIP/CLIP-DR: 预训练VLM迁移,GenEval通过LoRA+知识注入大幅超越(F1 75.1% vs 46.8%)

评分

  • 新颖性: ⭐⭐⭐⭐ DCB/SDCD理论框架有独立贡献,知识精炼范式新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个DR+2个SOZ数据集大规模验证
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨但密度较高
  • 价值: ⭐⭐⭐⭐ 领域专家知识参数化注入VLM的范式可推广到其他垂直领域

相关论文