跳转至

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

会议: ICLR2026
arXiv: 2603.05867
代码: 待确认
领域: 医学图像 / LLM推理
关键词: 肿瘤分析, 多模态CoT推理, 交错推理, 3D CT, TNM分期

一句话总结

提出 TumorChain,面向肿瘤分析的交错多模态 CoT 推理框架,通过 1.5M CoT-VQA 数据引擎、器官引导的迭代交错推理(IIR)和混合模型协同优化,在肿瘤定位/属性分析/TNM分期上平均精度 84.41%,大幅超越 GPT-5-Mini(51.59%)。

研究背景与动机

  1. 领域现状:医学 VLM 缺乏肿瘤特化、3D CT 推理深度不足、无法连接影像发现与病理终点(TNM分期)。
  2. 现有痛点:通用 VLM 在肿瘤分析上表现差(GPT-5-Mini 仅 51.59%),缺乏可追溯的推理链。
  3. 核心idea一句话:器官引导的迭代交错推理——LLM 输出目标器官→分割提取 ROI→增强提示反馈→多轮因果验证。

方法详解

关键设计

  1. 交互验证数据引擎:5个 Agent(分割/特征/CoT推理/逻辑校准/总结)+ 诊断知识图谱 → 1.5M CoT-VQA对
  2. 器官引导迭代交错推理(IIR):LLM→器官识别→分割→ROI增强→再推理
  3. 混合模型协同:分类模型(正常/异常)+ LLM 联合训练
  4. TumorChain-Eval:提取主谓宾三元组,分别评分发现链/印象链/长推理链

实验关键数据

主实验

方法 平均精度 TNM-T TNM-N TNM-M CoTe Score
GPT-5-Mini 51.59% - - - 61.23
Gemini2.0 41.29% - - - 54.28
TumorChain-7B 84.41% 88.83% 61.63% 71.07% 58.33

消融实验

配置 平均精度
CoT + IIR baseline 79.90%
w/o IIR 80.34% (-4.07%)
w/o CoT 82.45% (-1.96%)
Full TumorChain 84.41%

关键发现

  • 定位精度近乎完美:器官级 99.97%,位置级 97.57%
  • IIR 贡献最大(去掉降 4.07%)——迭代精化是核心
  • 在 DeepTumorVQA 上零样本泛化:73.30% vs MedVLM-R1 56.41%

亮点与洞察

  • 诊断知识图谱驱动的数据引擎:自动生成 1.5M 高质量 CoT 数据
  • 迭代交错推理模拟临床放射科医师的工作流程

局限性 / 可改进方向

  • 迭代推理增加 2.51 秒/样本延迟
  • CoT 评估依赖 GPT-4 评分,可能有偏

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个面向肿瘤的多模态CoT推理框架
  • 实验充分度: ⭐⭐⭐⭐⭐ 大规模数据、多任务、泛化验证
  • 写作质量: ⭐⭐⭐⭐ 临床动机深入
  • 价值: ⭐⭐⭐⭐⭐ 精准肿瘤学的重要工具