跳转至

Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks

会议: AAAI 2026
arXiv: 2511.06665
代码: https://github.com/SLR567/Sim4Seg
领域: 医学图像 / 视觉语言模型
关键词: 医学诊断分割, 视觉语言相似性, 思维链诊断, 多模态多疾病, 测试时缩放

一句话总结

提出医学诊断分割(MDS)任务并构建 M3DS 数据集,设计 Sim4Seg 框架利用 LVLM 隐藏状态的视觉-语言相似度掩码(RVLS2M)提示 SAM 进行分割,同时生成诊断思维链,配合测试时缩放策略在分割和诊断上全面超越基线。

研究背景与动机

  1. 领域现状:医学图像分割模型在特定任务上表现出色,但缺乏直接提供可解释诊断的能力。推理分割(reasoning segmentation)近期被提出将文本推理与视觉分割结合。
  2. 现有痛点:(a) 现有医学 LVLM 要么专注分割要么专注文本诊断,缺乏统一模型;(b) 通用推理分割方法(如 LISA)未针对医学图像优化,分割精度不足;(c) 缺乏包含分割掩码和诊断思维链的统一医学数据集。
  3. 核心矛盾:医学诊断需要同时输出像素级分割结果可解释的诊断推理,但这两个任务在现有框架中是分离的。
  4. 本文目标:定义 MDS 任务并构建数据集,设计统一框架同时输出分割掩码和诊断结果。
  5. 切入角度:利用 LVLM 最后隐藏层中图像 token 和特殊 token 嵌入之间的相似度,生成区域感知掩码提示 SAM 进行精确分割。
  6. 核心 idea:LVLM 的隐藏状态天然编码了文本描述的目标与图像区域的对应关系,用这种相似度生成掩码提示比单纯特殊 token 嵌入提供更丰富的位置信息。

方法详解

整体框架

LVLM 接收医学图像和查询文本,生成包含特殊 token 的诊断推理文本。从最后隐藏层提取图像 token 嵌入 \(\mathbf{E}_{img}\) 和特殊 token 嵌入 \(\mathbf{E}_{seg}\),通过 RVLS2M 模块计算相似度并生成区域掩码 \(\mathbf{M}_{region}\)。该掩码连同 \(\mathbf{E}_{seg}\) 和视觉特征 \(\mathbf{F}\) 一起送入 SAM 解码器生成最终分割掩码。

关键设计

  1. 区域感知视觉-语言相似度掩码模块(RVLS2M)

    • 功能:从 LVLM 隐藏状态中挖掘目标区域的位置先验,生成二值掩码引导 SAM 分割。
    • 核心思路:计算图像 token 嵌入与特殊 token 嵌入的点积相似度 \(\text{Sim} = \mathbf{E}_{img} \cdot (\mathbf{E}_{seg})^T\),softmax 归一化后重塑为 2D 相似度图,划分为 \(g \times g\) 网格,每个网格内均值池化得到区域相似度矩阵 \(\mathcal{R}\),自适应阈值二值化生成 \(\mathbf{M}_{region}\)。该掩码作为额外提示输入 SAM 解码器。
    • 设计动机:LISA 仅用特殊 token 嵌入提示 SAM,丢失了空间位置信息。LVLM 处理图像和文本后,隐藏状态已编码了语义对应关系,利用这种对应能提供更精确的区域先验。
  2. M3DS 数据集与 CoT 生成管线

    • 功能:提供包含分割掩码+诊断思维链的统一训练数据。
    • 核心思路:整合 10 个子数据集覆盖 4 种模态(X射线、皮肤镜、内窥镜、超声、眼底)和多种疾病。用 HuatuoGPT-Vision 作为医学助手生成 CoT 诊断推理(先识别模态→分析图像→得出诊断),批判性助手评估质量,人工辅助审核保证可靠性。共 16,148 个样本。
    • 设计动机:现有数据集要么只有分割标注要么只有 VQA 标注,缺乏统一的分割+诊断推理数据。
  3. MDS 测试时缩放策略

    • 功能:推理时通过多路径推理提升分割和诊断质量。
    • 核心思路:生成 \(m\) 条多样化诊断推理路径,每条路径通过 RVLS2M 生成区域掩码,再加上 \(n\) 种随机扰动,共产生 \(m \times n\) 个候选分割掩码。选择评估指标 \(\mathcal{Q}\)(gIoU 和 cIoU 均值)最高的作为最终结果。
    • 设计动机:LLM 的多次采样可以产生不同质量的推理路径,best-of-N 选择简单有效。

损失函数 / 训练策略

\(\mathcal{L} = \lambda_{txt}\mathcal{L}_{txt} + \lambda_{mask}(\lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice})\)。基于 LISA 框架微调,使用 CoT 数据训练。

实验关键数据

主实验

M3DS 测试集上的结果:

方法 gIoU cIoU 诊断准确率
LISA (zero-shot) 32.43 31.83 4.71%
LISA (ft-CoT) 45.90 45.92 58.05%
Sim4Seg (ft-CoT) 51.86 53.90 69.04%
Sim4Seg + 测试时缩放 53.11 55.83 82.63%

消融实验

配置 gIoU cIoU 说明
LISA baseline 45.90 45.92 无 RVLS2M
+ RVLS2M 51.86 53.90 分割提升显著
+ 测试时缩放 53.11 55.83 进一步提升
无 CoT 训练 51.00 54.06 诊断准确率低

关键发现

  • RVLS2M 对分割性能提升最显著(gIoU +5.96, cIoU +7.98),证明视觉-语言相似度掩码的有效性。
  • CoT 训练对诊断准确率影响巨大(54.33%→69.04%),但对分割提升有限(+0.86 gIoU)。
  • 测试时缩放策略额外提升 1.25 gIoU 和 13.59% 诊断准确率(从 69.04%→82.63%)。
  • 跨数据集和跨模态泛化能力表现稳健。

亮点与洞察

  • 挖掘 LVLM 隐藏状态的空间信息:LVLM 在处理图像和文本后,隐藏层已编码了语义-空间对应关系。利用这种免费信息生成区域掩码是一个巧妙的观察。
  • MDS 任务定义:将分割和诊断统一为一个任务的形式化定义有助于推动医学 AI 的可解释性研究。
  • M3DS 数据集:覆盖 5 种成像模态和多种疾病的统一格式数据集填补了重要空缺。

局限与展望

  • 测试时缩放需要多次推理,增加了计算成本。
  • CoT 质量依赖 HuatuoGPT-Vision 的生成能力,可能存在医学知识错误。
  • 网格大小 \(g\) 的选择对结果有影响,自适应网格可能更好。
  • 仅用 SAM 作为分割骨干,更先进的分割模型可能进一步提升。

相关工作与启发

  • vs LISA:LISA 仅用特殊 token 嵌入提示 SAM;Sim4Seg 额外利用视觉-语言相似度掩码提供区域先验。
  • vs READ:READ 使用点提示;Sim4Seg 使用区域掩码提示,更密集。
  • vs SAM-Med2D:分割专用模型无诊断能力;Sim4Seg 统一两者。

评分

  • 新颖性: ⭐⭐⭐⭐ MDS 任务定义 + RVLS2M 模块 + M3DS 数据集
  • 实验充分度: ⭐⭐⭐⭐ 多模态多疾病评估,但缺乏临床医生评估
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,算法描述详细
  • 价值: ⭐⭐⭐⭐⭐ 对医学 AI 可解释性有重要推动

相关论文