BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation¶
会议: CVPR 2026
arXiv: 2603.00156
代码: 待确认
领域: 医学图像分割 / 视觉语言模型
关键词: 医学分割, 视觉语言融合, 双向融合, 鲁棒性, 一致性正则化
一句话总结¶
提出双向视觉-语言融合(BMF)和增强一致性(IAC)两个模块,让文本和图像特征可以相互修正,在标注极度稀缺(1%)和图像退化(低剂量CT噪声/运动模糊)场景下仍保持分割鲁棒性。
背景与动机¶
医学图像分割中,现有视觉-语言方法多采用单向融合——文本条件化视觉表征,视觉信息无法反向修正文本语义。这在标注稀缺和图像质量退化的真实临床环境中表现脆弱:静态文本条件可能与低质量图像不匹配,导致分割精度下降。作者观察到,如果允许视觉特征迭代修正文本表征(双向交互),语义对齐将更加稳健。
核心问题¶
单向文本到视觉融合在标注稀缺和图像退化条件下不够稳定,如何设计双向融合机制并同时引入对扰动的鲁棒性约束?
方法详解¶
整体框架¶
输入图像经轻量CNN编码为视觉嵌入,临床文本经冻结CXR-BERT编码为文本嵌入。两个嵌入送入BMF模块进行双向交互,生成伪图像(pseudo image)编码跨模态语义。伪图像与原图拼接后送入U-Net进行分割,同时IAC模块对弱/强增强视图的中间特征施加一致性约束。
关键设计¶
- 双向多模态融合(BMF): 文本嵌入t和图像嵌入i拼接后经MLP生成修正量delta-t,通过残差连接得到修正后文本t'。t'进一步通过伪图像生成器输出伪图像,再经image-to-text head映射回文本空间,用循环一致性损失 L_cycle = ||t - t_hat||^2 约束——这构成"文本->视觉->文本"的完整双向环路。
- 图像增强一致性(IAC): 对多模态输入分别施加弱增强和强增强,两个视图经U-Net后取解码器最后层特征,通过投影头降维后以余弦距离 L_IAC = 1 - cos(p_w, p_s) 约束两个视图的特征一致性,促进增强不变的表征学习。
- 伪图像生成器: 将修正后的文本嵌入解码为与原图同分辨率的伪图像,用L1重建损失监督,作为跨模态语义的可视化桥梁。
损失函数 / 训练策略¶
总损失 L_total = L_seg + lambda_gen * L_gen + lambda_IAC * L_IAC + lambda_cycle * L_cycle。分割损失用Dice+CE。训练使用AdamW,lr=1e-4,cosine annealing warm restart,batch=16,150 epochs,单卡RTX 4090。
实验关键数据¶
| 数据集 | 指标 | BiCLIP | 之前SOTA (EF-UNet) | 提升 |
|---|---|---|---|---|
| QaTa-COV19 | Dice(%) | 90.59 | 90.46 | +0.13 |
| QaTa-COV19 | mIoU(%) | 82.81 | 82.58 | +0.23 |
| MosMedData+ | Dice(%) | 80.80 | 80.50 | +0.30 |
| MosMedData+ | mIoU(%) | 67.79 | 67.37 | +0.42 |
- 相比nnU-Net(纯视觉),QaTa-COV19上Dice提升超10%,MosMedData+提升超8%
- 1%标注数据下:BiCLIP Dice 74.79% vs EF-UNet 66.76%(QaTa),46.49% vs 33.68%(MosMed)
- 低剂量CT噪声(DL-140)下:BiCLIP 81.90% vs EF-UNet 70.97% Dice(QaTa)
- 运动模糊(K7)下:BiCLIP 88.01% vs EF-UNet 87.20% Dice(QaTa)
消融实验要点¶
- BMF模块贡献了主要的分割精度提升,IAC模块主要提升退化场景下的鲁棒性
- 循环一致性损失对双向融合的对齐质量至关重要
- 伪图像的引入使模型能将文本语义显式可视化并融合
亮点¶
- 将视觉-语言融合从单向扩展为双向环路,用循环一致性约束闭环
- 在1%标注下仍大幅优于基线(+8%),说明文本信息有效弥补了标注不足
- 噪声鲁棒性测试设计贴近临床实际(低剂量CT、运动模糊)
局限性 / 可改进方向¶
- 仅在COVID-19胸部CT上验证,缺少MRI、超声等模态及其他解剖区域的实验
- 文本来源和提示设计对性能的影响未系统分析
- 伪图像生成器引入了额外参数和计算,轻量化空间存在
- 未与SAM等基础模型的语言引导适配方案做系统比较
与相关工作的对比¶
- 与LViT(单向文本引导)相比,BiCLIP在QaTa上Dice从83.66%提升到90.59%,说明双向融合的优越性
- 与RecLMIS(TMI'24)相比,两个数据集上分别提升5.37%和3.32% Dice
- 与EF-UNet最接近,但BiCLIP在极端数据/噪声条件下优势更明显
启发与关联¶
- 双向融合+循环一致性的范式可迁移到其他跨模态任务(如报告引导分割、多模态检测)
- IAC模块的增强一致性思路与自监督/半监督方法有天然联系
评分¶
- 新颖性: ⭐⭐⭐ 双向融合和IAC各自不算新,组合在医学场景有效但增量有限
- 实验充分度: ⭐⭐⭐⭐ 低数据/噪声鲁棒性测试全面,但仅限两个COVID-CT数据集
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式和图示完整
- 价值: ⭐⭐⭐ 临床鲁棒性方向有意义,但实际影响力受限于数据集范围