Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks¶
会议: AAAI 2026
arXiv: 2511.06665
代码: https://github.com/SLR567/Sim4Seg
领域: 医学图像 / 视觉语言模型
关键词: 医学诊断分割, 视觉语言相似性, 思维链诊断, 多模态多疾病, 测试时缩放
一句话总结¶
提出医学诊断分割(MDS)任务并构建 M3DS 数据集,设计 Sim4Seg 框架利用 LVLM 隐藏状态的视觉-语言相似度掩码(RVLS2M)提示 SAM 进行分割,同时生成诊断思维链,配合测试时缩放策略在分割和诊断上全面超越基线。
研究背景与动机¶
- 领域现状:医学图像分割模型在特定任务上表现出色,但缺乏直接提供可解释诊断的能力。推理分割(reasoning segmentation)近期被提出将文本推理与视觉分割结合。
- 现有痛点:(a) 现有医学 LVLM 要么专注分割要么专注文本诊断,缺乏统一模型;(b) 通用推理分割方法(如 LISA)未针对医学图像优化,分割精度不足;(c) 缺乏包含分割掩码和诊断思维链的统一医学数据集。
- 核心矛盾:医学诊断需要同时输出像素级分割结果和可解释的诊断推理,但这两个任务在现有框架中是分离的。
- 本文目标:定义 MDS 任务并构建数据集,设计统一框架同时输出分割掩码和诊断结果。
- 切入角度:利用 LVLM 最后隐藏层中图像 token 和特殊 token 嵌入之间的相似度,生成区域感知掩码提示 SAM 进行精确分割。
- 核心 idea:LVLM 的隐藏状态天然编码了文本描述的目标与图像区域的对应关系,用这种相似度生成掩码提示比单纯特殊 token 嵌入提供更丰富的位置信息。
方法详解¶
整体框架¶
LVLM 接收医学图像和查询文本,生成包含特殊 token 的诊断推理文本。从最后隐藏层提取图像 token 嵌入 \(\mathbf{E}_{img}\) 和特殊 token 嵌入 \(\mathbf{E}_{seg}\),通过 RVLS2M 模块计算相似度并生成区域掩码 \(\mathbf{M}_{region}\)。该掩码连同 \(\mathbf{E}_{seg}\) 和视觉特征 \(\mathbf{F}\) 一起送入 SAM 解码器生成最终分割掩码。
关键设计¶
-
区域感知视觉-语言相似度掩码模块(RVLS2M)
- 功能:从 LVLM 隐藏状态中挖掘目标区域的位置先验,生成二值掩码引导 SAM 分割。
- 核心思路:计算图像 token 嵌入与特殊 token 嵌入的点积相似度 \(\text{Sim} = \mathbf{E}_{img} \cdot (\mathbf{E}_{seg})^T\),softmax 归一化后重塑为 2D 相似度图,划分为 \(g \times g\) 网格,每个网格内均值池化得到区域相似度矩阵 \(\mathcal{R}\),自适应阈值二值化生成 \(\mathbf{M}_{region}\)。该掩码作为额外提示输入 SAM 解码器。
- 设计动机:LISA 仅用特殊 token 嵌入提示 SAM,丢失了空间位置信息。LVLM 处理图像和文本后,隐藏状态已编码了语义对应关系,利用这种对应能提供更精确的区域先验。
-
M3DS 数据集与 CoT 生成管线
- 功能:提供包含分割掩码+诊断思维链的统一训练数据。
- 核心思路:整合 10 个子数据集覆盖 4 种模态(X射线、皮肤镜、内窥镜、超声、眼底)和多种疾病。用 HuatuoGPT-Vision 作为医学助手生成 CoT 诊断推理(先识别模态→分析图像→得出诊断),批判性助手评估质量,人工辅助审核保证可靠性。共 16,148 个样本。
- 设计动机:现有数据集要么只有分割标注要么只有 VQA 标注,缺乏统一的分割+诊断推理数据。
-
MDS 测试时缩放策略
- 功能:推理时通过多路径推理提升分割和诊断质量。
- 核心思路:生成 \(m\) 条多样化诊断推理路径,每条路径通过 RVLS2M 生成区域掩码,再加上 \(n\) 种随机扰动,共产生 \(m \times n\) 个候选分割掩码。选择评估指标 \(\mathcal{Q}\)(gIoU 和 cIoU 均值)最高的作为最终结果。
- 设计动机:LLM 的多次采样可以产生不同质量的推理路径,best-of-N 选择简单有效。
损失函数 / 训练策略¶
\(\mathcal{L} = \lambda_{txt}\mathcal{L}_{txt} + \lambda_{mask}(\lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice})\)。基于 LISA 框架微调,使用 CoT 数据训练。
实验关键数据¶
主实验¶
M3DS 测试集上的结果:
| 方法 | gIoU | cIoU | 诊断准确率 |
|---|---|---|---|
| LISA (zero-shot) | 32.43 | 31.83 | 4.71% |
| LISA (ft-CoT) | 45.90 | 45.92 | 58.05% |
| Sim4Seg (ft-CoT) | 51.86 | 53.90 | 69.04% |
| Sim4Seg + 测试时缩放 | 53.11 | 55.83 | 82.63% |
消融实验¶
| 配置 | gIoU | cIoU | 说明 |
|---|---|---|---|
| LISA baseline | 45.90 | 45.92 | 无 RVLS2M |
| + RVLS2M | 51.86 | 53.90 | 分割提升显著 |
| + 测试时缩放 | 53.11 | 55.83 | 进一步提升 |
| 无 CoT 训练 | 51.00 | 54.06 | 诊断准确率低 |
关键发现¶
- RVLS2M 对分割性能提升最显著(gIoU +5.96, cIoU +7.98),证明视觉-语言相似度掩码的有效性。
- CoT 训练对诊断准确率影响巨大(54.33%→69.04%),但对分割提升有限(+0.86 gIoU)。
- 测试时缩放策略额外提升 1.25 gIoU 和 13.59% 诊断准确率(从 69.04%→82.63%)。
- 跨数据集和跨模态泛化能力表现稳健。
亮点与洞察¶
- 挖掘 LVLM 隐藏状态的空间信息:LVLM 在处理图像和文本后,隐藏层已编码了语义-空间对应关系。利用这种免费信息生成区域掩码是一个巧妙的观察。
- MDS 任务定义:将分割和诊断统一为一个任务的形式化定义有助于推动医学 AI 的可解释性研究。
- M3DS 数据集:覆盖 5 种成像模态和多种疾病的统一格式数据集填补了重要空缺。
局限与展望¶
- 测试时缩放需要多次推理,增加了计算成本。
- CoT 质量依赖 HuatuoGPT-Vision 的生成能力,可能存在医学知识错误。
- 网格大小 \(g\) 的选择对结果有影响,自适应网格可能更好。
- 仅用 SAM 作为分割骨干,更先进的分割模型可能进一步提升。
相关工作与启发¶
- vs LISA:LISA 仅用特殊 token 嵌入提示 SAM;Sim4Seg 额外利用视觉-语言相似度掩码提供区域先验。
- vs READ:READ 使用点提示;Sim4Seg 使用区域掩码提示,更密集。
- vs SAM-Med2D:分割专用模型无诊断能力;Sim4Seg 统一两者。
评分¶
- 新颖性: ⭐⭐⭐⭐ MDS 任务定义 + RVLS2M 模块 + M3DS 数据集
- 实验充分度: ⭐⭐⭐⭐ 多模态多疾病评估,但缺乏临床医生评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰,算法描述详细
- 价值: ⭐⭐⭐⭐⭐ 对医学 AI 可解释性有重要推动
相关论文¶
- [AAAI 2026] MAPI-GNN: Multi-Activation Plane Interaction Graph Neural Network for Multimodal Medical Diagnosis
- [ICLR 2026] Boosting Medical Visual Understanding From Multi-Granular Language Learning
- [AAAI 2026] PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis
- [CVPR 2026] EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease
- [AAAI 2026] Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark