TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis¶
会议: ICLR2026
arXiv: 2603.05867
代码: 待确认
领域: 医学图像 / LLM推理
关键词: 肿瘤分析, 多模态CoT推理, 交错推理, 3D CT, TNM分期
一句话总结¶
提出 TumorChain,面向肿瘤分析的交错多模态 CoT 推理框架,通过 1.5M CoT-VQA 数据引擎、器官引导的迭代交错推理(IIR)和混合模型协同优化,在肿瘤定位/属性分析/TNM分期上平均精度 84.41%,大幅超越 GPT-5-Mini(51.59%)。
研究背景与动机¶
- 领域现状:医学 VLM 缺乏肿瘤特化、3D CT 推理深度不足、无法连接影像发现与病理终点(TNM分期)。
- 现有痛点:通用 VLM 在肿瘤分析上表现差(GPT-5-Mini 仅 51.59%),缺乏可追溯的推理链。
- 核心idea一句话:器官引导的迭代交错推理——LLM 输出目标器官→分割提取 ROI→增强提示反馈→多轮因果验证。
方法详解¶
关键设计¶
- 交互验证数据引擎:5个 Agent(分割/特征/CoT推理/逻辑校准/总结)+ 诊断知识图谱 → 1.5M CoT-VQA对
- 器官引导迭代交错推理(IIR):LLM→器官识别→分割→ROI增强→再推理
- 混合模型协同:分类模型(正常/异常)+ LLM 联合训练
- TumorChain-Eval:提取主谓宾三元组,分别评分发现链/印象链/长推理链
实验关键数据¶
主实验¶
| 方法 | 平均精度 | TNM-T | TNM-N | TNM-M | CoTe Score |
|---|---|---|---|---|---|
| GPT-5-Mini | 51.59% | - | - | - | 61.23 |
| Gemini2.0 | 41.29% | - | - | - | 54.28 |
| TumorChain-7B | 84.41% | 88.83% | 61.63% | 71.07% | 58.33 |
消融实验¶
| 配置 | 平均精度 |
|---|---|
| CoT + IIR baseline | 79.90% |
| w/o IIR | 80.34% (-4.07%) |
| w/o CoT | 82.45% (-1.96%) |
| Full TumorChain | 84.41% |
关键发现¶
- 定位精度近乎完美:器官级 99.97%,位置级 97.57%
- IIR 贡献最大(去掉降 4.07%)——迭代精化是核心
- 在 DeepTumorVQA 上零样本泛化:73.30% vs MedVLM-R1 56.41%
亮点与洞察¶
- 诊断知识图谱驱动的数据引擎:自动生成 1.5M 高质量 CoT 数据
- 迭代交错推理模拟临床放射科医师的工作流程
局限性 / 可改进方向¶
- 迭代推理增加 2.51 秒/样本延迟
- CoT 评估依赖 GPT-4 评分,可能有偏
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个面向肿瘤的多模态CoT推理框架
- 实验充分度: ⭐⭐⭐⭐⭐ 大规模数据、多任务、泛化验证
- 写作质量: ⭐⭐⭐⭐ 临床动机深入
- 价值: ⭐⭐⭐⭐⭐ 精准肿瘤学的重要工具