BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation¶

会议: CVPR 2026
arXiv: 2603.00156
代码: 待确认
领域: 医学图像分割 / 视觉语言模型
关键词: 医学分割, 视觉语言融合, 双向融合, 鲁棒性, 一致性正则化

一句话总结¶

提出双向视觉-语言融合（BMF）和增强一致性（IAC）两个模块，让文本和图像特征可以相互修正，在标注极度稀缺（1%）和图像退化（低剂量CT噪声/运动模糊）场景下仍保持分割鲁棒性。

背景与动机¶

医学图像分割中，现有视觉-语言方法多采用单向融合——文本条件化视觉表征，视觉信息无法反向修正文本语义。这在标注稀缺和图像质量退化的真实临床环境中表现脆弱：静态文本条件可能与低质量图像不匹配，导致分割精度下降。作者观察到，如果允许视觉特征迭代修正文本表征（双向交互），语义对齐将更加稳健。

核心问题¶

单向文本到视觉融合在标注稀缺和图像退化条件下不够稳定，如何设计双向融合机制并同时引入对扰动的鲁棒性约束？

方法详解¶

整体框架¶

输入图像经轻量CNN编码为视觉嵌入，临床文本经冻结CXR-BERT编码为文本嵌入。两个嵌入送入BMF模块进行双向交互，生成伪图像（pseudo image）编码跨模态语义。伪图像与原图拼接后送入U-Net进行分割，同时IAC模块对弱/强增强视图的中间特征施加一致性约束。

关键设计¶

双向多模态融合（BMF）: 文本嵌入t和图像嵌入i拼接后经MLP生成修正量delta-t，通过残差连接得到修正后文本t'。t'进一步通过伪图像生成器输出伪图像，再经image-to-text head映射回文本空间，用循环一致性损失 L_cycle = ||t - t_hat||^2 约束——这构成"文本->视觉->文本"的完整双向环路。
图像增强一致性（IAC）: 对多模态输入分别施加弱增强和强增强，两个视图经U-Net后取解码器最后层特征，通过投影头降维后以余弦距离 L_IAC = 1 - cos(p_w, p_s) 约束两个视图的特征一致性，促进增强不变的表征学习。
伪图像生成器: 将修正后的文本嵌入解码为与原图同分辨率的伪图像，用L1重建损失监督，作为跨模态语义的可视化桥梁。

损失函数 / 训练策略¶

总损失 L_total = L_seg + lambda_gen * L_gen + lambda_IAC * L_IAC + lambda_cycle * L_cycle。分割损失用Dice+CE。训练使用AdamW，lr=1e-4，cosine annealing warm restart，batch=16，150 epochs，单卡RTX 4090。

实验关键数据¶

数据集	指标	BiCLIP	之前SOTA (EF-UNet)	提升
QaTa-COV19	Dice(%)	90.59	90.46	+0.13
QaTa-COV19	mIoU(%)	82.81	82.58	+0.23
MosMedData+	Dice(%)	80.80	80.50	+0.30
MosMedData+	mIoU(%)	67.79	67.37	+0.42

相比nnU-Net（纯视觉），QaTa-COV19上Dice提升超10%，MosMedData+提升超8%
1%标注数据下：BiCLIP Dice 74.79% vs EF-UNet 66.76%（QaTa），46.49% vs 33.68%（MosMed）
低剂量CT噪声（DL-140）下：BiCLIP 81.90% vs EF-UNet 70.97% Dice（QaTa）
运动模糊（K7）下：BiCLIP 88.01% vs EF-UNet 87.20% Dice（QaTa）

消融实验要点¶

BMF模块贡献了主要的分割精度提升，IAC模块主要提升退化场景下的鲁棒性
循环一致性损失对双向融合的对齐质量至关重要
伪图像的引入使模型能将文本语义显式可视化并融合

亮点¶

将视觉-语言融合从单向扩展为双向环路，用循环一致性约束闭环
在1%标注下仍大幅优于基线（+8%），说明文本信息有效弥补了标注不足
噪声鲁棒性测试设计贴近临床实际（低剂量CT、运动模糊）

局限性 / 可改进方向¶

仅在COVID-19胸部CT上验证，缺少MRI、超声等模态及其他解剖区域的实验
文本来源和提示设计对性能的影响未系统分析
伪图像生成器引入了额外参数和计算，轻量化空间存在
未与SAM等基础模型的语言引导适配方案做系统比较

与相关工作的对比¶

与LViT（单向文本引导）相比，BiCLIP在QaTa上Dice从83.66%提升到90.59%，说明双向融合的优越性
与RecLMIS（TMI'24）相比，两个数据集上分别提升5.37%和3.32% Dice
与EF-UNet最接近，但BiCLIP在极端数据/噪声条件下优势更明显

启发与关联¶

双向融合+循环一致性的范式可迁移到其他跨模态任务（如报告引导分割、多模态检测）
IAC模块的增强一致性思路与自监督/半监督方法有天然联系

评分¶

新颖性: ⭐⭐⭐ 双向融合和IAC各自不算新，组合在医学场景有效但增量有限
实验充分度: ⭐⭐⭐⭐ 低数据/噪声鲁棒性测试全面，但仅限两个COVID-CT数据集
写作质量: ⭐⭐⭐⭐ 结构清晰，公式和图示完整
价值: ⭐⭐⭐ 临床鲁棒性方向有意义，但实际影响力受限于数据集范围