Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training¶

会议: ICCV 2025
arXiv: 2508.03742
代码: alibaba-damo-academy/ViSD-Boost (有)
领域: 医学图像
关键词: 视觉-语言预训练, 语义密度, 解剖正常性建模, VQ-VAE, 零样本诊断
机构: 浙江大学 + 阿里达摩院 + 浙大一附院

一句话总结¶

提出 ViSD-Boost，通过疾病级视觉对比学习增强视觉语义 + VQ-VAE 建模解剖正常性分布来放大异常信号，解决医学 VLP 中视觉语义密度低导致的对齐偏差，在腹部 CT 54 种疾病零样本诊断达到 84.9% AUC。

背景与动机¶

医学 VLP 面临一个核心矛盾：医学图像的信噪比（SNR）低，诊断报告的 SNR 高，二者之间存在语义密度差距（semantic density gap）。具体来说： - 一张 CT 扫描包含大量解剖内容，但与诊断相关的区域可能只占千分之一（如膀胱结石在整个腹部体积中占比极小） - 诊断报告则是对图像观察的高度浓缩总结，语义密度高 - 直接对齐这两种语义密度差异悬殊的模态，会导致视觉对齐偏差（visual alignment bias）——视觉激活无法聚焦到真正的病灶区域

现有 3D CT VLP 方法（CT-CLIP、Merlin、BIUD 等）未能突破视觉语义密度的瓶颈，特别在复杂的腹部场景下效果有限，大多数工作仍局限于相对简单的 2D 胸部场景。

核心问题¶

如何提升视觉表征的语义密度，使其包含更多诊断相关信号，从而实现更有效的跨模态对齐？

具体分解为两个子问题： 1. 如何让视觉编码器学会区分正常和异常的解剖结构？（视觉语义增强） 2. 如何放大视觉表征中的异常信号，使模型更容易捕捉到微小的诊断线索？（视觉语义密度提升）

方法详解¶

整体框架¶

ViSD-Boost 框架包含四个核心模块： 1. 解剖解析（Anatomy Parsing）：用 TotalSegmentator 分割 104 种解剖结构并合并为 36 个主要解剖单元；用 Qwen 将报告分解为器官级结构化描述 2. 视觉语义增强（Visual Semantic Enhancement）：疾病级对比学习，增强正常/异常器官的区分能力 3. 视觉语义密度提升（Vision Semantic Density Boosting）：用 VQ-VAE 学习每个器官的正常分布，利用重建误差放大异常信号 4. 解剖级图像-报告对齐（Anatomy-wise Alignment）：基于增强后的视觉表征进行细粒度跨模态对齐

关键设计¶

1. 解剖级图像-报告对齐 - 视觉编码器：3D ResNet18（作者发现 CNN 在 CT 理解上优于 ViT，因为卷积更擅长局部特征提取） - 文本编码器：预训练 BERT（MedVL-CT69K）/ CXR-BERT（CT-RATE） - 为每个解剖结构分别添加可学习 query token \(Q_{i,j}^I\) 和 \(Q_{i,j}^R\)，通过交叉注意力聚合视觉/文本 token 序列 - 使用解剖级对比学习损失：对每个器官内的图像-报告对做 InfoNCE 对比

2. 疾病级视觉对比学习（Visual Semantic Enhancement） - 用 LLM（Qwen）自动从报告中提取每个器官的健康/疾病标签 \(y \in \{0:\text{normal}, 1:\text{abnormal}\}^{B \times M}\) - 对比学习的分布设计思想来自异常检测： - 正常样本同一器官应聚集（属于同一类别，互为正对） - 异常样本彼此应分散（不同患者的病变大小、位置、病理类型不同，不应视为同类） - 对异常样本：单个实例与自身增强视图（通过动量编码器生成 \(Q_{i,j}^{I'}\)）构成正对，所有其他样本为负对 - 对正常样本：同一器官的所有正常样本互为正对 - 这个设计避免了监督分类的过拟合风险——监督分类会把所有异常样本压到一个簇里，丢失细粒度差异（T-SNE 可视化明确验证了这点）

3. VQ-VAE 解剖正常性建模（Anatomical Normality Modeling） - 核心思路：只用正常样本训练 VQ-VAE 学习正常分布 → 异常样本重建质量下降 → 重建误差反映异常程度 - 两个与传统 VQ-VAE 的关键区别： - 多分布学习：为每个解剖结构引入条件 token \(A_j\)，使同一个 VQ-VAE 同时建模多个器官的正常分布。离散码本大小 \(M \times K \times C\)（\(M\)=36 个器官，每个器官 \(K\)=100 个原型向量，维度 \(C\)=1024） - 潜空间建模：在视觉编码器的特征空间而非图像空间训练，更高效且有利于高层语义编码 - 使用 Transformer 作为 VQ-VAE 的编码器/解码器（比 CNN 更好地建模 token 间长距离依赖，捕捉器官形状、纹理等全局属性） - 码本通过 EMA（指数移动平均）策略更新 - 训练仅使用正常样本（通过指示函数 \(\mathbb{I}_{y_{i,j}=0}\) 过滤）

4. 异常语义感知模块（Abnormality Semantic Perception） - 将原始嵌入 \(f_{i,j}^I\) 与 VQ-VAE 重建的正常嵌入 \(q_{i,j}^I\) 拼接，输入 MLP 生成增强表征 \(\hat{f}_{i,j}^I\) - 本质上是一个差异感知模块：以正常重建为参照，检测并放大原始嵌入中偏离正常的成分 - 增强后的表征替代原始嵌入进行视觉-语言对齐

损失函数 / 训练策略¶

四阶段依次训练（以 MedVL-CT69K 为例，各 60/30/60/30 epochs）： 1. 阶段 1：疾病级对比学习预训练视觉编码器（公式 2：正常样本聚集 + 异常样本实例级对比） 2. 阶段 2：初步视觉-语言对齐（公式 1：解剖级对比损失） 3. 阶段 3：冻结视觉编码器训练 VQ-VAE（公式 3：重建损失 + 承诺损失 \(\beta\)=0.25，sg 停梯度） 4. 阶段 4：冻结 VQ-VAE 微调整个 VLP 框架（含异常语义感知模块）

优化器：Adam，lr 线性 warmup 到 1e-4 后 cosine 衰减至 1e-6
硬件：4× A100，batch size 48
输入：CT 体积随机裁剪 256×384×96，重采样到 1mm×1mm×5mm，HU 截断 [-1000, 1000] 归一化到 [0, 1]
数据增强：RandomCrop + RandomFlip
注意：CT-RATE 实验完全从零训练，不使用 MedVL-CT69K 的数据或预训练权重

实验关键数据¶

零样本诊断性能

数据集	指标	ViSD-Boost	之前SOTA (fVLM)	提升
CT-RATE (胸部内部验证)	AUC	79.0%	77.8%	+1.2%
Rad-ChestCT (胸部外部验证)	AUC	69.4%	68.0%	+1.4%
MedVL-CT69K (腹部, 54疾病/15器官)	Avg AUC	84.9%	81.3%	+3.6%

放射学报告生成（MedVL-CT69K, finetuning 模式）

指标	ViSD-Boost	fVLM	提升
Precision	39.8	38.6	+1.2
Recall	44.1	36.9	+7.2
F1	40.9	32.7	+8.2
GREEN	46.7	40.2	+6.5
BLEU4	28.4	21.9	+6.5
ROUGE-L	51.0	46.4	+4.6
CIDEr	50.7	17.1	+33.6

多疾病分类（肝脏 8 种疾病线性探测）

指标	ViSD-Boost	CLIP	提升
Avg SE	80.9	64.3	+16.6
Avg AUC	88.1%	77.2%	+10.9%

肝硬化 AUC 96.8%（CLIP 88.9%），肝癌 AUC 94.3%（CLIP 74.6%），提升最为显著

消融实验要点¶

在 MedVL-CT69K 验证集上：

配置	ACC	AUC
全局对齐 + ViT (AAV)	69.3	70.9
+ 细粒度解剖对齐 + CNN (AAC)	73.1	76.5
+ 实例级对比 (VSEI)	74.8	78.7
+ 疾病级对比 (VSED)	77.3	80.7
+ VQ-VAE 语义密度提升 (VSDB)	78.0	82.5

关键结论： - CNN vs ViT：CNN 在 CT 理解上始终优于 ViT（+5.6% AUC），卷积更适合 CT 局部特征 - 疾病级 vs 实例级对比：疾病级 (+2.0%) 优于实例级，验证了"正常聚集、异常分散"设计的有效性 - VSDB 整体贡献：在强基线上再 +1.8%，累计相对基线 +6.0% - 局部 vs 弥漫性病变：局部病变 AUC 提升 +4.0%，弥漫性仅 +2.8%，符合语义密度提升直觉（局部病灶信号更稀疏，受益更大） - 视觉编码器选择：ResNet18/34/50 性能接近（AUC 78.7/78.9/79.0），18 已足够 - VSDB 使视觉 token 激活更稀疏：更多激活集中在零附近，模型聚焦更重要的特征

亮点¶

语义密度概念的提出：将医学 VLP 的核心瓶颈归纳为视觉-语言间的语义密度差距，把"信噪比"的直觉用"semantic density"形式化，这个视角对领域有启发性
异常检测思路用于 VLP：不直接学异常模式，而是学正常分布 → 利用分布偏移检测异常，这是一种间接但巧妙的策略，避免了异常样本多样性过大难以直接建模的问题
疾病级对比学习的设计哲学："正常聚集、异常分散"——比简单的二分类或实例级对比更符合医学场景本质（临床上也是如此：正常就那样，病变各有不同）
实验规模和全面性：覆盖胸部 + 腹部 CT，54 种疾病 15 个器官，零样本/报告生成/分类三大任务，内部 + 外部验证，消融 + 可视化丰富
已开源，来自阿里达摩院，工程可复现性较好

局限性 / 可改进方向¶

依赖分割预处理：需要 TotalSegmentator 先分割器官，如果分割不准会级联误差。对新器官或罕见解剖变异适应性不明
训练流程复杂：四阶段依次训练，每阶段 30-60 epochs，流程管理成本高。能否设计端到端的联合训练？
仅限 CT 模态：未在 MRI、超声等其他 3D 模态验证。不同模态的"正常性"分布差异可能需要重新建模
正常/异常的二元假设过于简单：现实中存在大量"边界状态"（如轻微脂肪肝、早期纤维化），严格的正常/异常划分可能遗漏渐变性病理
VQ-VAE 的码本容量固定：每个器官 100 个原型向量，不清楚对复杂器官（如肝脏）是否足够，也未探讨自适应码本大小
胸部场景提升有限：胸部仅 +1~2%，腹部 +3.6%，可能因胸部场景已相对成熟且竞争方法更强

与相关工作的对比¶

方法	对齐粒度	视觉增强	语义密度处理	3D支持	数据集
CT-CLIP	全局	无	无	✓	CT-RATE
BIUD	全局	X-ray蒸馏	无	✓	胸部+腹部
Merlin	全局	无	无	✓	胸部+腹部
fVLM	解剖级	无	无	✓	MedVL-CT69K
ViSD-Boost	解剖级	疾病级对比	VQ-VAE正常性建模	✓	胸部+腹部

关键区分：ViSD-Boost 是唯一同时解决视觉语义增强和语义密度提升的方法。fVLM 做了解剖级对齐但没有增强视觉表征的语义密度。细粒度对齐方法（fVLM、ViSD-Boost）显著优于全局对齐方法。

启发与关联¶

正常性建模的通用性：VQ-VAE 学正常分布 → 分布偏移检测异常的范式不局限于 VLP，可以推广到医学异常检测、OOD 检测、甚至报告自动质控（检测报告遗漏的异常）
疾病连续性建模：当前正常/异常二分过于粗糙，未来可探索疾病严重度的连续性建模，如用条件 VQ-VAE 引入严重度梯度
跨模态语义密度平衡：语义密度差距不仅存在于 CT-报告之间，也存在于病理图像-基因组、超声视频-临床记录等场景，提升视觉端语义密度的思路可以迁移
多器官条件码本：每个器官共享 VQ-VAE 但用不同条件 token，这种"一个模型多分布"的设计可以推广到其他需要多条件生成/重建的场景

评分¶

新颖性: ⭐⭐⭐⭐ （语义密度概念新颖，VQ-VAE 正常性建模在 VLP 中首次使用，但对比学习和 VQ-VAE 本身都是成熟技术）
实验充分度: ⭐⭐⭐⭐⭐ （三个数据集、多任务、消融详尽、可视化丰富、54种疾病细粒度评估）
写作质量: ⭐⭐⭐⭐ （逻辑清晰，动机阐述到位，图表规范）
对我的价值: ⭐⭐⭐⭐ （正常性建模思路可延伸到多个医学 AI 场景）