跳转至

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

会议: CVPR 2026
arXiv: 2603.00156
代码: 待确认
领域: 医学图像分割 / 视觉语言模型
关键词: 医学分割, 视觉语言融合, 双向融合, 鲁棒性, 一致性正则化

一句话总结

提出双向视觉-语言融合(BMF)和增强一致性(IAC)两个模块,让文本和图像特征可以相互修正,在标注极度稀缺(1%)和图像退化(低剂量CT噪声/运动模糊)场景下仍保持分割鲁棒性。

背景与动机

医学图像分割中,现有视觉-语言方法多采用单向融合——文本条件化视觉表征,视觉信息无法反向修正文本语义。这在标注稀缺和图像质量退化的真实临床环境中表现脆弱:静态文本条件可能与低质量图像不匹配,导致分割精度下降。作者观察到,如果允许视觉特征迭代修正文本表征(双向交互),语义对齐将更加稳健。

核心问题

单向文本到视觉融合在标注稀缺和图像退化条件下不够稳定,如何设计双向融合机制并同时引入对扰动的鲁棒性约束?

方法详解

整体框架

输入图像经轻量CNN编码为视觉嵌入,临床文本经冻结CXR-BERT编码为文本嵌入。两个嵌入送入BMF模块进行双向交互,生成伪图像(pseudo image)编码跨模态语义。伪图像与原图拼接后送入U-Net进行分割,同时IAC模块对弱/强增强视图的中间特征施加一致性约束。

关键设计

  1. 双向多模态融合(BMF): 文本嵌入t和图像嵌入i拼接后经MLP生成修正量delta-t,通过残差连接得到修正后文本t'。t'进一步通过伪图像生成器输出伪图像,再经image-to-text head映射回文本空间,用循环一致性损失 L_cycle = ||t - t_hat||^2 约束——这构成"文本->视觉->文本"的完整双向环路。
  2. 图像增强一致性(IAC): 对多模态输入分别施加弱增强和强增强,两个视图经U-Net后取解码器最后层特征,通过投影头降维后以余弦距离 L_IAC = 1 - cos(p_w, p_s) 约束两个视图的特征一致性,促进增强不变的表征学习。
  3. 伪图像生成器: 将修正后的文本嵌入解码为与原图同分辨率的伪图像,用L1重建损失监督,作为跨模态语义的可视化桥梁。

损失函数 / 训练策略

总损失 L_total = L_seg + lambda_gen * L_gen + lambda_IAC * L_IAC + lambda_cycle * L_cycle。分割损失用Dice+CE。训练使用AdamW,lr=1e-4,cosine annealing warm restart,batch=16,150 epochs,单卡RTX 4090。

实验关键数据

数据集 指标 BiCLIP 之前SOTA (EF-UNet) 提升
QaTa-COV19 Dice(%) 90.59 90.46 +0.13
QaTa-COV19 mIoU(%) 82.81 82.58 +0.23
MosMedData+ Dice(%) 80.80 80.50 +0.30
MosMedData+ mIoU(%) 67.79 67.37 +0.42
  • 相比nnU-Net(纯视觉),QaTa-COV19上Dice提升超10%,MosMedData+提升超8%
  • 1%标注数据下:BiCLIP Dice 74.79% vs EF-UNet 66.76%(QaTa),46.49% vs 33.68%(MosMed)
  • 低剂量CT噪声(DL-140)下:BiCLIP 81.90% vs EF-UNet 70.97% Dice(QaTa)
  • 运动模糊(K7)下:BiCLIP 88.01% vs EF-UNet 87.20% Dice(QaTa)

消融实验要点

  • BMF模块贡献了主要的分割精度提升,IAC模块主要提升退化场景下的鲁棒性
  • 循环一致性损失对双向融合的对齐质量至关重要
  • 伪图像的引入使模型能将文本语义显式可视化并融合

亮点

  • 将视觉-语言融合从单向扩展为双向环路,用循环一致性约束闭环
  • 在1%标注下仍大幅优于基线(+8%),说明文本信息有效弥补了标注不足
  • 噪声鲁棒性测试设计贴近临床实际(低剂量CT、运动模糊)

局限性 / 可改进方向

  • 仅在COVID-19胸部CT上验证,缺少MRI、超声等模态及其他解剖区域的实验
  • 文本来源和提示设计对性能的影响未系统分析
  • 伪图像生成器引入了额外参数和计算,轻量化空间存在
  • 未与SAM等基础模型的语言引导适配方案做系统比较

与相关工作的对比

  • 与LViT(单向文本引导)相比,BiCLIP在QaTa上Dice从83.66%提升到90.59%,说明双向融合的优越性
  • 与RecLMIS(TMI'24)相比,两个数据集上分别提升5.37%和3.32% Dice
  • 与EF-UNet最接近,但BiCLIP在极端数据/噪声条件下优势更明显

启发与关联

  • 双向融合+循环一致性的范式可迁移到其他跨模态任务(如报告引导分割、多模态检测)
  • IAC模块的增强一致性思路与自监督/半监督方法有天然联系

评分

  • 新颖性: ⭐⭐⭐ 双向融合和IAC各自不算新,组合在医学场景有效但增量有限
  • 实验充分度: ⭐⭐⭐⭐ 低数据/噪声鲁棒性测试全面,但仅限两个COVID-CT数据集
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式和图示完整
  • 价值: ⭐⭐⭐ 临床鲁棒性方向有意义,但实际影响力受限于数据集范围