🏥 医学图像¶
📷 CVPR2026 · 共 81 篇
- A protocol for evaluating robustness to H&E staining variation in computational pathology models
-
提出三步评估协议(选参考染色条件→表征测试集染色属性→模拟染色条件推理),系统量化306个MSI分类模型对H&E染色差异的鲁棒性,发现鲁棒性与分类性能呈弱负相关(r=-0.28),高性能不代表高鲁棒性。
- A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement
-
提出面向乳腺超声(BUS)图像分割的半监督框架,利用 GPT-5 生成外观描述 + Grounding DINO + SAM 免训练生成伪标签(APPG),结合双教师框架(静态+动态)通过不确定性-熵加权融合(UEWF)和自适应不确定性引导反向对比学习(AURCL)精炼标签,仅用 2.5% 标注即接近全监督性能。
- A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement
-
通过外观描述驱动VLM免训练生成伪标签,再由双教师不确定性融合+反向对比学习细化,仅2.5%标注即可逼近全监督性能。
- Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning
-
借鉴基础模型范式,先在约4000例fastMRI多对比度脑MRI上预训练扩散模型,再用20例目标域数据微调,实现临床中风MRI的高质量加速重建,盲审读片证明2×加速下非劣于标准诊疗。
- Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning
-
借鉴基础模型的"预训练+微调"范式,在 ~4000 名 fastMRI 受试者(多对比度)上大规模预训练扩散概率模型(DPM),然后用极少目标域数据(20名受试者)低学习率微调,实现跨对比度、跨采集协议的 MRI 加速重建;临床中风验证中 2× 加速图像质量经神经放射科医生盲法评估 non-inferior 于标准全采样图像。
- Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning
-
提出 HistoSelect 框架,模拟病理学家从粗到细的推理过程,通过组织分割→Group Sampler→Patch Selector 的三级筛选机制,基于信息瓶颈(IB)理论压缩无关视觉token,在减少约70%计算量的同时实现三个数据集上的SOTA。
- Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning
-
提出 UAAI 框架,首次将主动推理(Active Inference)引入微手势识别,通过 EFE 引导的时间帧选择 + 空间注意力 + UMIX不确定性感知增强,在SMG数据集RGB模态上达到63.47%,大幅超越传统RGB方法。
- Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions
-
提出SFDA-DeP方法,受机器遗忘启发,将源自由域适应建模为迭代识别过度预测类的不确定样本并选择性降低其置信度的过程,同时联合训练像素级分类器恢复定位判别力,在跨器官/跨中心病理基准上显著优于SFDA baselines。
- Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions
-
提出 SFDA-DeP,受机器遗忘启发,将 SFDA 重新定义为"识别并纠正预测偏差"的迭代过程:对 dominant class 中高熵不确定样本执行"遗忘"操作迫使模型放弃偏向性预测,对可靠样本保持自训练,同时用像素级分类器锚定定位能力,在跨器官/跨中心病理基准上持续优于现有 SFDA 方法。
- Adaptive Confidence Regularization For Multimodal Failure Detection
-
提出 ACR 框架,通过自适应置信度损失(惩罚多模态融合置信度低于单模态的"置信度退化"现象)和多模态特征交换(在特征空间合成失败样本)两个互补模块,首次系统解决多模态场景下的误分类检测问题,在四个数据集上全面超越已有方法。
- Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study
-
在统一训练和评估协议下对比11个专用医学分割架构(SMA)和通用视觉模型(GP-VM),发现GP-VM在三个异质医学数据集上超越大多数SMA,且Grad-CAM分析表明GP-VM无需领域特定设计即可捕获临床相关结构。
- Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts
-
在 NLST(n=7980)和 SUMMIT(n=8561)两个大规模肺癌筛查队列中,利用深度学习自动分割量化低剂量 CT 上 PPFE 的纵向变化(dPPFE),验证其与全因死亡率(HR=1.25/3.14)和呼吸系统发病率的独立关联。
- Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts
-
在两个大规模肺癌筛查队列(NLST n=7980, SUMMIT n=8561)上,利用深度学习自动分割 PPFE 体积并定义"进展性 PPFE",通过 Cox 比例风险模型证明 PPFE 进展是全因死亡率的独立预测因子(NLST HR=1.25, SUMMIT HR=3.14),并与呼吸入院率、抗生素/类固醇使用等临床终点显著关联。
- Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI
-
系统对比 15 种 CNN 变体在卵巢癌组织病理图像五分类上的表现,选出 InceptionV3-A(ReLU)达 94% 综合指标后,用 LIME/SHAP/Integrated Gradients 三种 XAI 方法解释其决策。
- Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI
-
系统地比较了 LeNet/ResNet/VGG/Inception 四大CNN架构的15个变体在卵巢癌组织病理学图像分类上的表现,最终选择 InceptionV3-ReLU 作为基础模型(平均指标~94%),并结合 LIME、SHAP、Integrated Gradients 三种 XAI 方法对分类结果进行可解释性分析。
- Benchmarking Endoscopic Surgical Image Restoration and Beyond
-
构建了首个多源真实世界内窥镜手术图像复原数据集 SurgClean(3,113张图像,覆盖去烟/去雾/去飞溅三种退化类型),在其上系统评测了22种代表性图像复原方法(12种通用+10种任务特定),揭示现有方法与临床需求间仍存在显著差距,并进一步分析了手术场景退化与自然场景退化的本质差异。
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
-
提出 BiCLIP 框架,通过双向多模态融合(BMF)实现视觉信息反向精炼文本表示,并通过图像增强一致性(IAC)约束中间特征的扰动不变性,在 COVID-19 CT 分割上超越 SOTA,仅 1% 标注数据仍保持鲁棒。
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
-
提出双向视觉-语言融合(BMF)和增强一致性(IAC)两个模块,让文本和图像特征可以相互修正,在标注极度稀缺(1%)和图像退化(低剂量CT噪声/运动模糊)场景下仍保持分割鲁棒性。
- Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD
-
构建了覆盖55种口腔疾病的7,408例大规模配对CBCT-报告数据集,开发双语报告生成系统CBCTRepD,并通过多层级临床评估证明其可帮助不同经验水平的放射科医生提升报告质量。
- Care A Molecular-Guided Foundation Model With Adaptive Region Modeling For Whole
-
提出 CARE,一种病理学 slide-level 基础模型,通过自适应区域生成器(ARG)将 WSI 划分为形态学相关的不规则区域(类似 NLP 中的词级 token),并结合 RNA/蛋白质表达谱的跨模态对齐进行两阶段预训练,仅用主流模型约 1/10 的数据即在 33 个下游任务上取得最优平均性能。
- Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images
-
提出 CPNN,利用公开单细胞 RNA-seq 数据构建细胞类型原型(cell-type prototype),将 slide/patch 级基因表达建模为原型的加权组合,在基因表达估计任务上取得 SOTA 并提供可解释性。
- CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection
-
从数据中心视角重新审视 CLIP 领域适配,提出 CHIPS,为每个图文对计算融合曲率感知牛顿对齐(忠实性)、JL sketching压缩曲率估计(可扩展性)、可学习性+领域相关性权重(保留性)三因素的效用分数,用30%数据匹配全数据集CPT、10%数据超越50%数据CPT,在17个医学+31个通用基准上达到选择SOTA。
- Chips Efficient Clip Adaptation Via Curvature-Aware Hybrid Influence-Based Data
-
提出 CHIPS,一种基于曲率感知混合影响力的数据选择方法,在 CLIP 端点子空间中计算 Newton 风格对齐分数并结合可学习性与领域相关性权重,仅用 30% 数据即可匹配全量数据集持续预训练效果,在 17 个医学基准上达到 SOTA。
- CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation
-
提出 CURE——一种基于误差感知课程学习的多任务训练框架,在不引入额外数据的前提下,通过动态调节采样分布重点训练困难样本,将医学 VLM 的视觉定位精度提升 +0.37 IoU,幻觉率降低 18.6%。
- Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation
-
提出 Deco-Mamba,一种以解码器为中心的 Transformer-CNN-Mamba 混合架构,通过 Co-Attention Gate、视觉状态空间模块(VSSM)和可变形卷积增强解码过程,同时引入基于窗口化 KL 散度的分布感知深度监督策略,在 7 个医学图像分割基准上取得 SOTA。
- Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation
-
提出以解码器为核心的 Deco-Mamba 网络,用 Co-Attention Gate 双向融合编解码器特征、视觉状态空间模块(VSSM)建模长程依赖、可变形卷积恢复细节,并引入窗口化分布感知 KL 散度深度监督,在 7 个医学分割基准上以中等复杂度达到 SOTA。
- Deep Learning–Based Estimation of Blood Glucose Levels from Multidirectional Scleral Blood Vessel Imaging
-
提出 ScleraGluNet 框架,通过五个注视方向的巩膜血管图像,结合多分支 CNN + MRFO 特征优化 + Transformer 跨视角融合,实现 93.8% 三分类精度和 MAE=6.42 mg/dL 的空腹血糖估计。
- Deep Learning Based Estimation of Blood Glucose Levels from Multidirectional Scleral Blood Vessel Imaging
-
提出 ScleraGluNet,通过多方向巩膜血管图像(5 个注视方向)结合多分支 CNN + MRFO 特征优化 + Transformer 跨视角融合,实现三类代谢状态分类(93.8% 准确率)和连续血糖估计(MAE=6.42 mg/dL, r=0.983)。
- Diffusion-Based Feature Denoising and Using NNMF for Robust Brain Tumor Classification
-
本文提出 NNMF+CNN+扩散防御框架用于脑肿瘤 MRI 分类:先用 NNMF 将图像分解为紧凑可解释的低秩特征,通过 AUC/Cohen's d/p-value 统计指标筛选最强判别组件,再用轻量 CNN 分类;推理时引入前向扩散加噪 + 学习去噪器的特征空间净化模块,在 AutoAttack (\(L_\infty\), \(\epsilon=0.10\)) 下将鲁棒准确率从 0.47% 提升至 59.53%。
- Diffusion-Based Feature Denoising and Using NNMF for Robust Brain Tumor Classification
-
将 MRI 脑肿瘤分类任务分解为 NNMF 特征提取 → 统计特征筛选 → 轻量 CNN 分类 → 特征空间扩散净化四阶段流水线,在 AutoAttack 下将鲁棒精度从基线 0.5% 提升到 59.5%。
- Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models
-
提出 EDA 框架,将 EDM 的设计空间从纯高斯噪声扩展至任意噪声模式,通过多元高斯分布和多独立维纳过程驱动的 SDE 实现灵活噪声扩散,且证明噪声复杂度的提升不引入额外采样开销;仅用 5 步采样即可在 MRI 偏置场矫正、CT 金属伪影去除和自然图像阴影去除三项任务上取得媲美或优于百步 Refusion 和专用方法的效果。
- EI: Early Intervention for Multimodal Imaging based Disease Recognition
-
EI 提出在单模态嵌入(UIE)之前就注入跨模态语义引导([INT] token),模拟临床医生"先看一个模态形成初步判断再指导另一个模态检查"的工作流程,同时设计 MoR(多种秩 LoRA + 带旁路的松弛路由器)实现参数高效的 VFM 医学域适配,在视网膜/皮肤/膝关节三个数据集上以 <9M 可训练参数超越所有全参微调和 prompt learning 基线。
- Elucidating The Design Space Of Arbitrary-Noise-Based Diffusion Models
-
提出 EDA 框架,将 EDM 的设计空间从高斯噪声扩展到任意噪声模式,通过多元高斯分布参数化协方差矩阵实现灵活的噪声扩散,在 MRI 偏置场校正、CT 金属伪影去除和自然图像阴影去除三个任务上仅用 5 步采样即达到或超越 100 步 EDM 方法和专用方法。
- Every Error Has Its Magnitude Asymmetric Mistake Severity Training For Multiclas
-
提出 PAMS(Priority-Aware Mistake Severity)方法,通过非对称严重性感知的交叉熵损失(MSCE)、语义特征混合(SFR)和非对称 Mikel's Wheel 指标,在多分类 MIL WSI 诊断中显著降低严重误诊风险。
- Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning
-
在 ConvNeXt 骨干上构建注意力 MIL 模型,并通过梯度反转层(GRL)对抗性地消除扫描表征中的性别信息,再配合 focal loss、子群过采样和 5-fold 集成,实现胸部 CT 四类肺疾病的公平诊断。
- Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning
-
提出基于注意力 MIL 和梯度反转层(GRL)的公平性框架,从胸部 CT 体积中进行多类肺部疾病诊断,在保证诊断准确性的同时消除性别偏差。
- Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
-
提出 FedMEPD 框架,通过模态专属编码器 + 部分个性化融合解码器 + 多锚点跨注意力校准,同时解决联邦学习中多模态 MRI 的模态间异质性和客户端个性化需求。
- Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
-
提出 FedMEPD 联邦学习框架,通过模态专属编码器、部分个性化融合解码器和多锚点交叉注意力校准,同时获得最优全模态全局模型和各客户端缺失模态个性化模型。
- Fedvg Gradient-Guided Aggregation For Enhanced Federated Learning
-
FedVG 提出利用全局验证集上的逐层梯度范数为各客户端打分,梯度越平坦(范数越小)的客户端获得越高聚合权重,从而在高度数据异质性场景下显著提升联邦学习的泛化性能。
- GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis
-
提出 GIIM 框架,基于多异构图(MHG)同时建模多视图医学影像中病变间的视图内(intra-view)和视图间(inter-view)依赖关系,并通过四种缺失视图表示策略实现对不完整数据的鲁棒诊断。
- GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis
-
提出基于多异构图 (MHG) 的 GIIM 框架,通过四类边关系建模同一病灶跨视图动态变化和不同病灶间空间关联,并设计四种缺失视图填充策略,在 CT/MRI/乳腺 X 光三种模态上均显著优于现有方法。
- Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
-
发现并解决了 CLIP 在跨域少样本学习(CDFSL)中的局部特征对齐退化问题,提出基于循环一致性的 CC-CDFSL 框架,通过 T-I-T 和 I-T-I 双向循环路径和语义锚点机制改善 patch 级视觉-语言对齐,同时增强模型的可解释性。
- Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision
-
提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。
- LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol
-
提出 LUMINA 多厂商乳腺 FFDM 数据集(468 例患者、1824 张图像),附带前景像素直方图匹配的能量协调预处理方法,在诊断/BI-RADS/密度三任务上系统评估了 CNN 与 Transformer 模型。
- MedGEN-Bench: Contextually Entangled Benchmark for Open-Ended Multimodal Medical Generation
-
提出 MedGEN-Bench,首个面向开放式多模态医学生成的综合基准,包含 6,422 个专家验证的图文对、6 种成像模态、16 个临床任务,配套三层评估框架,揭示了组合框架优于统一模型的跨模态一致性问题。
- MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
-
提出 MedKCO,一种知识驱动的认知编排策略用于医学视觉-语言预训练:通过分层课程(label-level 按诊断敏感度排序 + description-level 按样本代表性排序)和自步非对称对比损失,让模型从简单到复杂渐进学习,在三种医学模态的零样本和下游任务上显著超越基线。
- MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification
-
提出 MIL-PF,利用冻结的基础视觉编码器(DINOv2/MedSigLIP)预计算特征,再用仅约 40K 参数的轻量 MIL 头进行乳腺 X 线分类,在大规模 EMBED 数据集上达到 SOTA 性能,同时大幅降低训练成本。
- MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification
-
提出MIL-PF框架,将冻结的基础视觉编码器(DINOv2/MedSigLIP)与仅40k参数的轻量级MIL聚合头结合,通过预计算特征+双流(全局组织上下文+局部病变注意力)聚合,在大规模乳腺X线分类任务上以极低训练成本达到SOTA性能。
- Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
-
揭示了在 VLM 的跨域小样本微调中,增强视觉判别性反而损害跨模态对齐("判别性陷阱"),提出 SVL + RA 两个即插即用模块来抑制视觉学习捷径并引导跨模态对齐,在 4 个 CDFSL 数据集和 11 个 FSL 数据集上取得 SOTA。
- MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection
-
提出 MoECLIP,将 Mixture-of-Experts 引入零样本异常检测(ZSAD),通过冻结正交特征分离(FOFS)和等角紧框架(ETF)损失实现 patch 级别的动态专家路由与特化,在14个工业/医学基准上达到 SOTA。
- Mri Contrast Enhancement Kinetics World Model
-
首次提出 MRI 造影增强动力学世界模型(MRI CEKWorld),通过时空一致性学习(STCL)在稀疏采样数据上实现从无造影 MRI 到连续高保真造影增强序列的生成,解决了内容失真和时序不连续两大难题。
- Multimodal Classification of Radiation-Induced Contrast Enhancements and Tumor Recurrence Using Deep Learning
-
提出 RICE-NET,一个多模态 3D ResNet-18 模型,整合纵向 MRI 数据与放疗剂量分布图,用于自动区分胶质母细胞瘤术后放射诱导对比增强(RICE)与肿瘤复发,在独立测试集上达到 F1=0.92。
- Multimodal Classification of Radiation-Induced Contrast Enhancements and Tumor Recurrence Using Deep Learning
-
提出RICE-NET,一种多模态3D ResNet-18模型,融合纵向T1加权MRI数据与放射治疗剂量分布图,在92例胶质母细胞瘤患者队列上实现F1=0.92的RICE vs 肿瘤复发自动分类,消融实验揭示放疗剂量图是最具信息量的单模态输入。
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation
-
提出ERBA(Enzyme-Reaction Bridging Adapter),将酶动力学参数预测重新建模为与催化机制对齐的分阶段条件化问题——先通过MRCA注入底物信息捕捉分子识别,再通过G-MoE融合活性位点3D几何信息建模构象适应,并用ESDA做分布对齐保持PLM先验——在三个动力学指标上全面超越现有SOTA。
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation
-
提出ERBA(Enzyme-Reaction Bridging Adapter),将酶动力学参数预测重新建模为分阶段多模态条件生成问题——先通过MRCA注入底物信息捕获底物识别特异性,再通过G-MoE整合活性位点3D结构捕获构象适应,配合ESDA分布对齐保持PLM语义先验。
- MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
-
提出 MMPFN,首次将预训练表格基础模型 TabPFN 扩展到多模态(表格+图像/文本)场景,通过多头门控 MLP(MGM)和交叉注意力池化器(CAP)解决非表格嵌入过压缩和 token 数量不平衡问题,在医学和通用数据集上超越 SOTA。
- Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation
-
提出 MSG-LDM,在潜在扩散模型中引入多尺度结构-风格解耦机制,通过高频注入、多模态结构特征融合和结构感知损失,实现缺失模态场景下保留解剖结构和精细细节的多模态 MRI 合成。
- Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation
-
提出MSG-LDM,一个基于潜在扩散模型的多模态MRI翻译框架,通过在潜空间中显式解耦风格和结构信息,结合高频注入(HFIB)、多模态结构特征融合(MMSF)和多尺度结构增强(MSSE)模块提取模态无关的完整结构先验来引导扩散去噪,在BraTS2020和WMH数据集上超越现有方法。
- Muse Harnessing Precise And Diverse Semantics For Few-Shot Whole Slide Image Cla
-
提出 MUSE 框架,通过 MoE 驱动的样本级细粒度语义增强(SFSE)和基于 LLM 知识库的随机多视角语义优化(SMMO),在少样本全切片图像分类任务上显著提升泛化能力。
- MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
-
提出 MuViT,一种基于世界坐标 RoPE 位置编码的多分辨率 Vision Transformer,能在单一编码器中联合处理同一场景不同物理分辨率的裁剪图,在显微镜图像分割任务上显著优于单分辨率基线。
- Novel Architecture of RPA In Oral Cancer Lesion Detection
-
将软件设计模式(Singleton + Batch Processing)融入Python自动化流程,使口腔癌病变检测的推理速度相比传统RPA平台(UiPath/Automation Anywhere)提升60-100倍。
- Novel Architecture of RPA In Oral Cancer Lesion Detection
-
将软件设计模式(Singleton + Batch Processing)集成到基于 EfficientNetV2B1 的口腔癌病变检测 Python 流水线中,相比传统 RPA 平台(UiPath/Automation Anywhere)实现 60-100 倍的推理加速,同时保持诊断准确性。
- OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
-
提出 OraPO(Oracle-educated GRPO),在 GRPO 探索失败时注入轻量 DPO 监督将失败 rollout 转化为偏好样本,配合 FactScore 奖励实现仅用 1K 样本、3B 小模型在 CheXpert Plus 和 MIMIC-CXR 上达到放射报告生成 SOTA(F1=0.341/0.357),训练数据量比前最优减少 2-3 个数量级。
- OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
-
提出 OraPO, 一种结合 GRPO 和 DPO 的自适应混合 RL 框架, 用于数据高效的放射学报告生成: 通过 Zero-Reward Rate 检测动态切换 GRPO 和 DPO, 加上 FactScore-based 临床事实级奖励, 仅用 1K 样本 (对比基线 227K) 在 CheXpert Plus 和 MIMIC-CXR 上取得 SOTA 的临床 F1 (0.341/0.357).
- Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
-
提出 ProtoSR,通过 LLM 从大规模自由文本放射学报告中挖掘模板对齐的视觉原型知识库,并以原型条件化残差(late fusion)方式注入结构化报告生成模型,在 Rad-ReStruct 基准上取得 SOTA,尤其显著提升细粒度属性问题的性能。
- Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
-
提出ProtoSR,通过LLM驱动的管道从22.7万篇MIMIC-CXR自由文本报告中挖掘模板对齐的视觉原型知识库,并设计原型条件化迟融合模块将检索到的原型证据作为logit残差注入层级式结构化报告模型,在Rad-ReStruct基准上达到SOTA,在细粒度属性问题(L3)上提升最为显著(+72.1%相对提升)。
- Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning
-
发现 CLIP 文本编码器中存在"Lost Layers"——在 Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) 中移除某些中间层反而提升性能;论文证明这些层并非冗余而是因视觉域偏移未被充分利用,提出 VtT 模型在层级和编码器级别重新利用这些信息,取得 SOTA。
- Reinforcing the Weakest Links: Modernizing SIENA with Targeted Deep Learning Integration
-
通过将SIENA纵向脑萎缩管线中的经典颅骨剥离(BET2)和组织分割(FAST)模块替换为深度学习方案(SynthStrip/SynthSeg),在ADNI和PPMI两个大队列上显著增强了脑体积变化百分比(PBVC)与临床疾病进展的关联性,并将扫描顺序误差降低高达99.1%。
- Reinforcing the Weakest Links: Modernizing SIENA with Targeted Deep Learning Integration
-
通过将 SIENA 脑萎缩管线中经典的颅骨剥离(BET2)和组织分割(FAST)模块替换为深度学习方案(SynthStrip、SynthSeg),在保留管线可解释性的前提下显著提升了 PBVC 估计的临床敏感度和鲁棒性。
- Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation
-
提出即插即用的SCDL框架,通过学习类条件代理分布(双向对齐CDBA)+语义锚约束(SAC)来消除半监督医学图像分割中的长尾偏差,在AMOS 5%标签下DSC提升+11.62%。
- Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation
-
提出 SCDL 即插即用框架,通过可学习类别代理分布的双向对齐(CDBA)和标注数据构建的语义锚约束(SAC),在嵌入空间中学习结构化的类条件特征分布,解决半监督医学图像分割中的监督偏置和表征不平衡问题,尤其在尾类分割上取得显著提升。
- Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning
-
提出 Similarity-as-Evidence (SaE) 框架,将 VLM 的文本-图像相似度重新解释为 Dirichlet 证据,通过 Similarity Evidence Head (SEH) 校准过度自信的 softmax 输出,并基于 vacuity(知识空缺)和 dissonance(证据冲突)的双因子采集策略实现可解释、高效的医学主动学习,在 10 个数据集上以 20% 标注预算达到 82.57% 的 SOTA 宏平均准确率。
- Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors
-
提出 InvTag 框架,首次将 MR 物理前向模型与预训练扩散生成先验结合,统一解决 3D Tagged MRI 的解剖恢复、Cine 合成和运动估计三大子任务,且无需任何额外训练数据。
- Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis
-
提出 STEPH,通过任务向量混合 (Task Vector Mixup) 与超网络驱动的稀疏聚合,将多个癌种预后模型的可泛化知识高效迁移到目标癌种,在 13 个 TCGA 数据集上平均 C-Index 提升 5.14%,且无需大规模联合训练或多模型推理。
- STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis
-
STEPH 将跨癌种预后模型的任务向量进行超网络驱动的混合(TVM)+ 稀疏聚合,在单一模型内完成知识迁移,13 个 TCGA 数据集上 C-Index 平均 0.6949(+5.14% vs 癌种特定学习,+2.01% vs ROUPKT),且推理开销远低于表示迁移方案。
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation
-
提出 SPEGC 框架,通过语义提示增强特征 + 可微分图聚类求解器,将原始相似度矩阵精炼为高阶结构表示,用于指导医学图像分割模型在持续变化的目标域上自适应,有效缓解误差累积与灾难性遗忘。
- Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos
-
构建首个腹腔镜手术出血区域+出血点标注数据集 SurgBlood,并提出基于 SAM2 的双分支双向引导在线检测器 BlooDet,通过 Mask/Point 分支协同优化实现出血区域分割与出血点定位的联合检测。
- The Invisible Gorilla Effect in Out-of-distribution Detection
-
揭示了OOD检测中一个此前未被报告的偏差——"隐形大猩猩效应":当OOD伪影与模型关注区域(ROI)视觉外观相似时检测性能显著更好,不相似时则大幅下降,尤其影响基于特征的OOD方法。
- Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data
-
提出 Difficulty-Influence Quadrant (DIQ) 数据选择策略,联合考量样本难度和梯度影响力,使 VLM 语言骨干仅用 1% 精选数据即可匹配全量 SFT 性能,10% 数据则可超越全量训练。
- Virtual Full-stack Scanning of Brain MRI via Imputing Any Quantised Code
-
提出 CodeBrain,将脑 MRI 任意到任意模态补全问题重新表述为区域级全栈量化码预测任务,通过两阶段流程(标量量化重建 + 分级损失码预测)实现统一的缺失模态合成,超越五种 SOTA 方法。
- CodeBrain: Virtual Full-stack Scanning of Brain MRI via Imputing Any Quantised Code
-
CodeBrain将脑MRI多模态补全(any-to-any imputation)重新定义为区域级全栈量化码预测问题:Stage I用有限标量量化(FSQ)将完整MRI集编码为紧凑code map + 模态无关公共特征,Stage II从不完整模态预测code map(用grading loss保持量化空间平滑性),在IXI和BraTS 2023上超越5种SOTA方法,生成的模态可接近真实数据的脑肿瘤分割性能。