Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset¶

会议: CVPR 2026
arXiv: 2511.15186
代码: GitHub
领域: 医学图像
关键词: 胸部X光, 病变分割, 指令引导, 自动数据集构建, 视觉语言模型

一句话总结¶

提出指令引导的胸部X光病变分割任务（ILS），构建了首个大规模自动生成的指令-回答数据集MIMIC-ILS（1.1M样本、192K图像、91K mask），并训练ROSALIA模型实现gIoU 71.2%和空目标准确率91.8%，远超现有通用和医学分割模型。

研究背景与动机¶

胸部X光（CXR）是最常见的医学影像检查之一，病变定位和边界识别是放射科医生的核心工作，但这一过程劳动密集且需要高度临床专业知识。

现有CXR病变分割面临两大瓶颈： 1. 标注规模有限：现有数据集（VinDr-CXR 15K图像、SIIM-ACR 13K图像）依赖专家手动标注，规模受限且多数仅提供bounding box或单一病变类型mask 2. 用户输入门槛高：已有文本引导分割方法要求用户提供专家级的详细描述（如"双侧肺部感染，两个感染区域…"），非专业用户无法使用

核心矛盾：如何在无人工标注的情况下大规模生成高质量的病变mask和指令-回答对，且支持简单易用的用户指令？

本文切入角度：利用MIMIC-CXR中现有的图像-报告配对数据，通过多模态自动化pipeline从影像和报告中提取空间信息和文本信息，生成全自动标注的大规模ILS数据集。

方法详解¶

整体框架¶

系统分为两大阶段： 1. 定位病变mask生成：从CXR图像和放射报告中自动生成病变分割mask 2. 指令-回答对生成：基于上一步提取的信息构建多样化的指令-回答训练样本

模型ROSALIA基于LISA架构，整合VLM（LLaVA）和SAM进行端到端训练。

关键设计¶

多模态自动mask生成管线:
- 功能：从原始CXR图像（无标注）自动生成高质量病变分割mask
- 核心思路：四步级联流程——
- 报告结构化：用LLM将放射报告中的异常描述转化为六元组（实体、句子索引、存在性、确定性、位置、病变类型），并将位置映射到标准解剖标签
- 空间信息提取：并行使用三个视觉模型——RadEdit（扩散模型生成异常图 \(\mathcal{A}\)，通过生成"无病变"图像与原图做差）、CXAS（解剖分割模型提供解剖mask \(\{\mathcal{M}_i\}\)）、YOLO（病变检测得到bounding box \(\{\mathcal{B}_j\}\)）
- mask生成：通过四条件过滤（解剖重叠c1 + 检测置信度c2 + 异常信号比c3 + 最小尺寸c4）筛选高质量候选框，提取与筛选框相交的连通区域并精炼
- 位置验证：确认生成的mask是否成功定位到报告描述的位置，同时标记空白位置用于负样本生成
- 设计动机：通过多模态交叉验证确保mask质量——文本信息提供"在哪里"、视觉异常图提供"哪里不正常"、检测模型提供"界限"。四条件过滤有效排除假阳性
指令-回答对生成系统:
- 功能：基于定位信息自动构建多样化的训练样本
- 核心思路：支持三种指令类型——
  - 基础指令：指定病变类型+位置（如"分割右肺的肺炎"），仅当mask成功定位时生成
  - 全局指令：仅指定病变类型（如"分割不透明影"），仅当定位位置与报告位置完全一致时生成
  - 病变推理指令：要求模型预测opacity的具体类型，将肺炎/肺不张/水肿替换为"opacity"
- 负样本生成策略：利用报告中未提及或显式否定的病变类型、以及空白位置替换正样本位置
- 设计动机：三种指令类型覆盖从具体到通用的不同用户需求。动态生成策略确保只产生有效的指令-回答对，避免不一致
ROSALIA模型架构:
- 功能：基于用户指令生成病变分割mask和文本描述
- 核心思路：基于LISA-7B架构，VLM（LLaVA）处理图像和指令输入，生成特殊[SEG] token和文本描述。[SEG] token的隐藏嵌入传递给SAM-H的mask解码器生成最终分割mask
- 训练策略：LoRA微调VLM（rank=128, alpha=256），全微调mask解码器。15个epoch，AdamW，batch size 256，正负样本1:1

损失函数 / 训练策略¶

\[\mathcal{L} = \lambda_{txt}\mathcal{L}_{txt} + \lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice}\]

\(\mathcal{L}_{txt}\)：自回归交叉熵损失（文本生成），\(\lambda_{txt}=0.5\)
\(\mathcal{L}_{bce}\)：二元交叉熵损失（分割），\(\lambda_{bce}=5\)
\(\mathcal{L}_{dice}\)：DICE损失（分割，仅对正样本计算），\(\lambda_{dice}=1\)

实验关键数据¶

主实验¶

模型	gIoU	cIoU	N-Acc.	说明
LISA-7B	8.3%	12.8%	0.7%	通用域
LISA-13B	8.9%	12.2%	0.0%	通用域
Text4Seg	6.1%	10.3%	20.6%	通用域
BiomedParse	23.8%	18.5%	0.6%	医学域
RecLMIS	22.4%	19.5%	0.0%	医学域
ROSALIA (Ours)	71.2%	75.6%	91.8%	MIMIC-ILS训练

各病变类型性能¶

病变类型	gIoU	cIoU	N-Acc.
心脏肥大	89.0%	89.0%	85.8%
肺炎	57.2%	60.4%	97.1%
肺不张	60.2%	58.7%	91.7%
不透明影	60.5%	64.2%	85.0%
实变	61.9%	65.6%	91.2%
水肿	64.8%	66.6%	92.2%
胸腔积液	60.3%	59.6%	90.4%

消融实验 — 数据集质量评估¶

专家	总接受率	正样本接受率	负样本接受率
专家A	96.1%	95.6%	96.5%
专家B	97.2%	96.0%	98.3%
专家C	98.7%	99.8%	97.8%
专家D	97.6%	96.9%	98.2%
总体	96.4%	90.1%	97.7%

关键发现¶

现有通用/医学域分割模型在ILS任务上系统性失败，gIoU低于24%且几乎无法处理空目标场景（N-Acc接近0）
全自动生成的数据集经4位放射肿瘤科专家评估，整体接受率高达96.4%
文本回答准确率94.4%，其中基础指令96.8%最高，病变推理指令84.8%有提升空间
心脏肥大分割最好（gIoU 89.0%），因为使用心脏mask作为标注；肺炎等局部病变稍低

亮点与洞察¶

全自动数据集构建pipeline是核心贡献，通过多模态交叉验证实现了媲美人工标注的质量
ILS任务定义具有临床实用性：支持简单指令而非专家级描述，且支持空目标检测（"没有发现病变"）
数据集规模（1.1M样本）是现有CXR分割数据集的10-100倍
RadEdit用于生成异常图的方法很巧妙——用扩散模型生成"正常"图像，通过差分定位异常区域

局限与展望¶

自动标注质量：正样本接受率90.1%低于负样本的97.7%，正样本标注的精度仍需提升
仅覆盖7种主要病变类型，CXR中还有更多细粒度异常
病变推理任务（opacity→具体类型）准确率75.1%相对较低
pipeline依赖RadEdit、CXAS、YOLO三个预训练模型，任一模型失效会影响整体质量
仅在MIMIC-CXR上验证，不同机构的CXR风格差异可能影响泛化

评分¶

新颖性: ⭐⭐⭐⭐ 全自动数据集构建pipeline和ILS任务定义均有创新
实验充分度: ⭐⭐⭐⭐ 多种基线对比、分病变类型评估、专家质量验证，但缺少跨数据集泛化实验
写作质量: ⭐⭐⭐⭐ 问题定义清晰，pipeline描述详细，图表丰富
价值: ⭐⭐⭐⭐⭐ 数据集规模和公开的代码/数据对社区有很高的实用价值