MedGEN-Bench: Contextually Entangled Benchmark for Open-Ended Multimodal Medical Generation¶

会议: CVPR 2026 arXiv: 2511.13135 代码: 待公开（论文中承诺开源）领域: 医学图像 关键词: 多模态医学生成, 基准测试, VLM评估, 图文交缠, 开放式生成

一句话总结¶

提出 MedGEN-Bench，首个面向开放式多模态医学生成的综合基准，包含 6,422 个专家验证的图文对、6 种成像模态、16 个临床任务，配套三层评估框架，揭示了组合框架优于统一模型的跨模态一致性问题。

研究背景与动机¶

现有医学视觉基准（VQA-RAD、SLAKE、PMC-VQA 等）存在三大根本性缺陷：(1) 查询-图像脱耦——问题是通用模板，缺乏与图像内容的深度关联，将 VQA 退化为简单分类；(2) 封闭式捷径——多选题格式使模型只需排序答案，绕开复杂的临床推理；(3) 纯文本输出——忽视了临床实践中不可或缺的图像生成能力（如病灶定位、区域编辑）。这三点与真实临床工作流严重脱节。本文旨在构建一个同时评估文本诊断生成和临床相关图像合成能力的综合基准。

方法详解¶

整体框架¶

MedGEN-Bench 通过四阶段流水线构建：(1) 预处理——两阶段过滤（元数据粗过滤 + GPT-4o 语义验证）选择任务相关医学图像；(2) 图像对合成——规则变换（经典图像处理）和生成变换（扩散模型等）产生输入-输出图像对；(3) 文本对合成——Qwen3-VL 提取语义信息，GPT-4o 做上下文增强，生成指令-回答对；(4) 后处理——自动 VLM 审查 + 医学专家人工验证。

最终基准包含 6,422 专家验证的图文对（11,744 张高质量图像），覆盖 CT、MRI、超声、X-ray、病理学和临床照片 6 种模态，组织为 VQA、图像编辑和上下文多模态生成三种任务格式。

关键设计¶

跨模态交缠指令 (Cross-Modal Entanglement): 指令被刻意设计为包含详细的、图像特定的视觉线索，迫使模型将文本语义扎根到像素级证据上。这与传统通用模板式查询形成鲜明对比，要求模型进行深层跨模态推理而非浅层模式匹配。
上下文增强 (Contextual Augmentation): 先由 Qwen3-VL 从图像对中提取结构化语义 \(\boldsymbol{\mathcal{M}}\)，填入任务模板得到原始指令对 \(\boldsymbol{\mathcal{I}}_{\text{raw}}\)，再由 GPT-4o 执行精炼函数 \(\boldsymbol{\psi}\)，结合输入输出图像、元数据和原始指令生成最终指令-回答对。精炼包括同义词替换、句法重组和领域术语注入，使指令在保持语义准确性的同时具有语言多样性。消融实验表明此增强将平均文-图语义相似度提升了 36.3%。
三层评估框架: (a) 像素层——SSIM、PSNR、LPIPS 评估结构/感知相似度；(b) 文本层——基于 PubMedBERT 的 BERTScore 评估语义相似度；(c) 整体层——VLM-as-a-Judge 范式（Analyze-then-Judge，1-10分），从一致性、视觉-文本对齐、内容准确性、相关性和模态一致性五维度评估，分有参考/无参考两种模式。

损失函数 / 训练策略¶

本文为基准论文，不涉及模型训练。评估时采用预定义阈值对跨指标结果进行二值化，报告准确率（通过样本比例）。基准的质量保证流程包括： - 自动审查: GPT-4o 评估生成样本与 ground truth 的一致性 - 专家审查: 医学专家从问题有效性、答案准确性和多模态相关性三个维度评估 - 图像标注: 对输入/输出图像添加不显眼的文本标识以辅助 VLM 审查

实验关键数据¶

主实验¶

任务/模型	Holistic w.GT	Holistic w/o GT	文本(BERTScore)	说明
多模态生成
Qwen3-VL & Imagen-4.0-fast	30.11	75.32	51.14	组合框架最优
Gemini-2.5-flash-image (统一)	23.58	49.78	46.86	图像质量高但文本弱
Ming-UniVision (统一)	8.54	11.48	24.93	跨模态严重脱节
图像编辑
Qwen3-VL & Gpt-image-1-mini	72.59	87.62	—	编辑任务最优
Gemini-2.5-flash (统一)	71.28	84.22	—	统一模型最优
VQA
Qwen3-VL	53.10	98.27	29.83	通用VLM领先
HuaTuoGPT-Vision (医学专用)	36.03	75.82	53.67	专业模型文本强但整体弱

消融实验¶

配置	关键指标	说明
原始模板指令	平均相似度 0.273	基线
上下文增强指令	平均相似度 0.372	+36.3%，Pass Rate 86.9%
峰值分布	0.25 → 0.40	增强后指令与图像的语义对齐显著右移

关键发现¶

组合框架 > 统一模型：组合框架通过任务分解和模块协作在跨模态一致性上显著优于统一模型
局部指标掩盖系统性缺陷：Ming-UniVision 的 PSNR/LPIPS 很高但整体评分极低，说明像素质量不等于临床正确性
医学专用模型的局限：HuaTuoGPT-Vision 文本能力强（BERTScore 53.67），但整体评估落后于通用模型，暴露出跨模态脱节
上下文增强至关重要：查询-图像交缠直接提升生成质量，验证了本基准的设计理念

亮点与洞察¶

范式突破: 首次将医学 AI 评估从"理解为主"拓展到"理解+生成"并重，更符合临床工作流
三层评估架构: 像素级+语义级+整体级的组合评估方案比单一指标更能揭示模型的真实能力
揭示性发现: 统一模型的"跨模态脱节"现象——像素保真度好但语义一致性差——对后续模型设计有重要启示

局限性 / 可改进方向¶

评估依赖 GPT-4o 作为 Judge，自身可能引入偏差（VLM 评估 VLM 的循环问题）
图像生成数据经过生成模型变换，可能存在不自然的伪影
6,422 对数据的规模对于涵盖 6 种模态、16 个任务仍显不足，平均每个子任务约 230 对
未包含 3D 体积成像（如完整 CT/MRI 序列），限于 2D 切片
专家验证的可扩展性有限，难以持续大规模更新
所有基准数据来自公开数据集，可能与真实临床数据存在分布差异
未评估模型在时序随访场景（如对比前后两次检查）的能力

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化的医学多模态生成基准，填补重要空白
实验充分度: ⭐⭐⭐⭐ 评估了 10 组合+3 统一+5 VLM，覆盖面广
写作质量: ⭐⭐⭐⭐ 问题动机论述清晰，pilot study 有说服力
价值: ⭐⭐⭐⭐⭐ 对医学多模态生成领域具有基准性意义，评估框架可复用