Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization¶

会议: CVPR 2026
arXiv: 2603.12369
代码: github.com/IMPACTLabASU/GenEval
领域: 医学图像 / 域泛化 / 视觉语言模型
关键词: 单源域泛化, 域保形界, 因果因子, 人类知识整合, 糖尿病视网膜病变, MedGemma-4B, LoRA

一句话总结¶

提出域保形界(DCB)理论框架量化域间因果因子差异，并据此设计GenEval——通过知识精炼+MedGemma-4B LoRA微调，将人类专家领域知识整合到VLM中实现单源域泛化，在8个DR和2个SOZ数据集上显著超越SOTA。

背景与动机¶

医学图像分类（如DR分级、SOZ检测）跨域泛化是核心挑战。关键瓶颈：域间存在未知因果因子差异——如新生血管仅出现在EyePACS而Messidor中无此指标，形成因果鸿沟。现有DG方法在DR上未能一致超越ERM。更实际的单源域泛化(SDG)——仅用一个域训练跨域部署——挑战更大。

核心问题¶

(1) 如何无分布假设地量化两域因果因子差异？(2) 如何将专家定性知识转化为可优化信号？(3) 如何高效整合到VLM中实现跨域泛化？

方法详解¶

整体框架¶

Step 1 DCB理论量化因果覆盖 → Step 2 SDCD指标评估域一致性 → Step 3 知识精炼+GenEval多模态分类。

关键设计¶

域保形界(DCB): 基于保形推断的分布无关框架。用SINDy/Koopman将因果因子建模为稀疏系数矩阵K，通过Mahalanobis距离构造置信区间C。目标域样本的鲁棒性度量落入C内则以概率>=1-alpha共享源域因果模式
源域一致度(SDCD): 计算目标域中多少比例样本落入源域DCB内。证明SDCD与SDG精度正相关（Pearson r=0.692, p<0.02），可预测泛化效果
知识量化与精炼: YOLOv12检测眼底病征转为14维IoU向量，SDCD引导消融找最优知识子集
GenEval: 精炼知识+图像构造多模态prompt，MedGemma-4B LoRA微调（rank=16, alpha=16, 95M/4B=2.4%可训练）

损失函数 / 训练策略¶

CAUSAL_LM标准损失，LoRA作用于全部attention和MLP投影层。单域训练1-10小时，推理约424ms/样本。

实验关键数据¶

MDG: GenEval 79.21% vs SPSD-ViT 73.3%（+5.71%）

SDG关键对比: | 源域 | 目标域 | Baseline | GenEval | 提升 | |------|--------|----------|---------|------| | EyePACS | Messidor | DRGen 54.6% | 69.5% | +14.9% | | EyePACS | Messidor2 | DRGen 65.4% | 80.5% | +15.1% | | Messidor | EyePACS | SPSD-ViT 57.4% | 80.0% | +22.6% |

扩展SDG（EyePACS训练，6外部目标）：GenEval均66.2% vs DECO 50.68%（+15.5%）
VLM对比：GenEval F1=75.1% vs CLIP-DR 46.8%（+28.3%）
SOZ检测：GenEval F1=90.0% vs CuPKL GPT-4o 88.1%，跨站点更稳定

消融实验要点¶

知识精炼：从no-ablation SDCD 59%逐步移除成分到82.81%，精度65.01%→73.23%，SDCD与精度正相关
零样本MedGemma-4B：均71.73%但域间差异大（APTOS 61.8% vs EyePACS 79.66%），需微调
SDCD噪声敏感性：PSNR>15dB时稳定，<10dB相关性塌缩
YOLOv11 vs v12：SDCD略变但精度差异不显著

亮点¶

理论-实践紧密结合：DCB/SDCD从理论解释现有DG方法失败原因并给出改进路径
知识精炼机制巧妙：SDCD指标自动筛选有用知识成分
SDCD有独立价值——无需训练即可预测源-目标域SDG可行性
8个DR+2个SOZ数据集大规模验证，覆盖不同设备/协议/人群

局限性¶

DCB假设连续可微数据生成过程，尖锐阈值效应下有误差
人类知识获取依赖领域专家，可扩展性受限
知识精炼贪心消融非全局最优
仅医学图像场景验证

与相关工作的对比¶

SPSD-ViT: DR域泛化SOTA，假设目标域可交换，无法判断新域是否在训练支持外。GenEval通过DCB提供部署前安全评估
BiomedCLIP/CLIP-DR: 预训练VLM迁移，GenEval通过LoRA+知识注入大幅超越（F1 75.1% vs 46.8%）
CuPKL: SOZ的GPT-4o零样本方法，单站点强但跨站点不稳，GenEval更一致

启发与关联¶

领域专家知识参数化注入VLM的范式可推广到任何垂直领域
DCB/SDCD提供不依赖目标域标签的泛化能力预测工具

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐