Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks¶

会议: AAAI 2026
arXiv: 2511.06665
代码: https://github.com/SLR567/Sim4Seg
领域: 医学图像 / 视觉语言模型
关键词: 医学诊断分割, 视觉语言相似性, 思维链诊断, 多模态多疾病, 测试时缩放

一句话总结¶

提出医学诊断分割（MDS）任务并构建 M3DS 数据集，设计 Sim4Seg 框架利用 LVLM 隐藏状态的视觉-语言相似度掩码（RVLS2M）提示 SAM 进行分割，同时生成诊断思维链，配合测试时缩放策略在分割和诊断上全面超越基线。

研究背景与动机¶

领域现状：医学图像分割模型在特定任务上表现出色，但缺乏直接提供可解释诊断的能力。推理分割（reasoning segmentation）近期被提出将文本推理与视觉分割结合。
现有痛点：(a) 现有医学 LVLM 要么专注分割要么专注文本诊断，缺乏统一模型；(b) 通用推理分割方法（如 LISA）未针对医学图像优化，分割精度不足；(c) 缺乏包含分割掩码和诊断思维链的统一医学数据集。
核心矛盾：医学诊断需要同时输出像素级分割结果和可解释的诊断推理，但这两个任务在现有框架中是分离的。
本文目标：定义 MDS 任务并构建数据集，设计统一框架同时输出分割掩码和诊断结果。
切入角度：利用 LVLM 最后隐藏层中图像 token 和特殊 token 嵌入之间的相似度，生成区域感知掩码提示 SAM 进行精确分割。
核心 idea：LVLM 的隐藏状态天然编码了文本描述的目标与图像区域的对应关系，用这种相似度生成掩码提示比单纯特殊 token 嵌入提供更丰富的位置信息。

方法详解¶

整体框架¶

LVLM 接收医学图像和查询文本，生成包含特殊 token 的诊断推理文本。从最后隐藏层提取图像 token 嵌入 \(\mathbf{E}_{img}\) 和特殊 token 嵌入 \(\mathbf{E}_{seg}\)，通过 RVLS2M 模块计算相似度并生成区域掩码 \(\mathbf{M}_{region}\)。该掩码连同 \(\mathbf{E}_{seg}\) 和视觉特征 \(\mathbf{F}\) 一起送入 SAM 解码器生成最终分割掩码。

关键设计¶

区域感知视觉-语言相似度掩码模块（RVLS2M）
- 功能：从 LVLM 隐藏状态中挖掘目标区域的位置先验，生成二值掩码引导 SAM 分割。
- 核心思路：计算图像 token 嵌入与特殊 token 嵌入的点积相似度 \(\text{Sim} = \mathbf{E}_{img} \cdot (\mathbf{E}_{seg})^T\)，softmax 归一化后重塑为 2D 相似度图，划分为 \(g \times g\) 网格，每个网格内均值池化得到区域相似度矩阵 \(\mathcal{R}\)，自适应阈值二值化生成 \(\mathbf{M}_{region}\)。该掩码作为额外提示输入 SAM 解码器。
- 设计动机：LISA 仅用特殊 token 嵌入提示 SAM，丢失了空间位置信息。LVLM 处理图像和文本后，隐藏状态已编码了语义对应关系，利用这种对应能提供更精确的区域先验。
M3DS 数据集与 CoT 生成管线
- 功能：提供包含分割掩码+诊断思维链的统一训练数据。
- 核心思路：整合 10 个子数据集覆盖 4 种模态（X射线、皮肤镜、内窥镜、超声、眼底）和多种疾病。用 HuatuoGPT-Vision 作为医学助手生成 CoT 诊断推理（先识别模态→分析图像→得出诊断），批判性助手评估质量，人工辅助审核保证可靠性。共 16,148 个样本。
- 设计动机：现有数据集要么只有分割标注要么只有 VQA 标注，缺乏统一的分割+诊断推理数据。
MDS 测试时缩放策略
- 功能：推理时通过多路径推理提升分割和诊断质量。
- 核心思路：生成 \(m\) 条多样化诊断推理路径，每条路径通过 RVLS2M 生成区域掩码，再加上 \(n\) 种随机扰动，共产生 \(m \times n\) 个候选分割掩码。选择评估指标 \(\mathcal{Q}\)（gIoU 和 cIoU 均值）最高的作为最终结果。
- 设计动机：LLM 的多次采样可以产生不同质量的推理路径，best-of-N 选择简单有效。

损失函数 / 训练策略¶

\(\mathcal{L} = \lambda_{txt}\mathcal{L}_{txt} + \lambda_{mask}(\lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice})\)。基于 LISA 框架微调，使用 CoT 数据训练。

实验关键数据¶

主实验¶

M3DS 测试集上的结果：

方法	gIoU	cIoU	诊断准确率
LISA (zero-shot)	32.43	31.83	4.71%
LISA (ft-CoT)	45.90	45.92	58.05%
Sim4Seg (ft-CoT)	51.86	53.90	69.04%
Sim4Seg + 测试时缩放	53.11	55.83	82.63%

消融实验¶

配置	gIoU	cIoU	说明
LISA baseline	45.90	45.92	无 RVLS2M
+ RVLS2M	51.86	53.90	分割提升显著
+ 测试时缩放	53.11	55.83	进一步提升
无 CoT 训练	51.00	54.06	诊断准确率低

关键发现¶

RVLS2M 对分割性能提升最显著（gIoU +5.96, cIoU +7.98），证明视觉-语言相似度掩码的有效性。
CoT 训练对诊断准确率影响巨大（54.33%→69.04%），但对分割提升有限（+0.86 gIoU）。
测试时缩放策略额外提升 1.25 gIoU 和 13.59% 诊断准确率（从 69.04%→82.63%）。
跨数据集和跨模态泛化能力表现稳健。

亮点与洞察¶

挖掘 LVLM 隐藏状态的空间信息：LVLM 在处理图像和文本后，隐藏层已编码了语义-空间对应关系。利用这种免费信息生成区域掩码是一个巧妙的观察。
MDS 任务定义：将分割和诊断统一为一个任务的形式化定义有助于推动医学 AI 的可解释性研究。
M3DS 数据集：覆盖 5 种成像模态和多种疾病的统一格式数据集填补了重要空缺。

局限与展望¶

测试时缩放需要多次推理，增加了计算成本。
CoT 质量依赖 HuatuoGPT-Vision 的生成能力，可能存在医学知识错误。
网格大小 \(g\) 的选择对结果有影响，自适应网格可能更好。
仅用 SAM 作为分割骨干，更先进的分割模型可能进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐ MDS 任务定义 + RVLS2M 模块 + M3DS 数据集
实验充分度: ⭐⭐⭐⭐ 多模态多疾病评估，但缺乏临床医生评估
写作质量: ⭐⭐⭐⭐ 结构清晰，算法描述详细
价值: ⭐⭐⭐⭐⭐ 对医学 AI 可解释性有重要推动