DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities¶
会议: AAAI 2026
arXiv: 2511.05968
代码: 无
领域: 医学图像
关键词: 放射报告生成, 缺失模态, 解纠缠表示, VAE, MoE
一句话总结¶
提出 DiA-gnostic VLVAE,通过视觉-语言混合专家VAE学习三因子潜空间(视觉特有/语言特有/共享),配合正交性+对比对齐的双约束实现解纠缠,使模型在临床上下文缺失时仍能生成可靠的放射学报告,在 IU X-Ray 和 MIMIC-CXR 上达到竞争性 BLEU@4。
研究背景与动机¶
领域现状:放射学报告生成(RRG)是将医学影像自动转化为文本报告的重要任务。从纯图像模型(R2Gen)演进到知识图谱增强(MKSG)再到上下文感知模型(PromptMRG),逐步引入更多临床信息。
现有痛点: - 缺失模态:实际临床中,临床上下文(病史、症状、人口统计)经常不完整 - 特征纠缠:模态特有信息和共享信息混合导致次优融合和临床不准确的幻觉发现 - 基于LLM的方法计算量大,基于知识图谱的方法适应性差 - 检索增强方法在缺失上下文时退化为确定性规则
核心矛盾:如何在模态缺失的情况下保持跨模态对齐的稳定性?
本文目标 通过解纠缠表示学习实现对缺失模态鲁棒的放射报告生成。
切入角度:将潜空间分解为三个因子(\(Z_v\)视觉特有、\(Z_l\)语言特有、\(Z_s\)共享),使用 MoE 策略推断共享潜变量使得缺失模态时可自动降权。
核心 idea:三因子潜空间解纠缠(正交性约束分离 + 对比对齐约束语义关联)+ MoE共享编码器在模态缺失时优雅降级。
方法详解¶
整体框架¶
- 特征提取:EfficientNetB0+GCA 提取视觉特征,Transformer编码器提取语言特征
- 模态抽象器:双向交叉注意力融合视觉和语言特征
- VL-MoE-VAE:学习三因子潜空间 \((Z_v, Z_l, Z_s)\)
- LLaMA-X 解码器:基于解纠缠表示生成报告
关键设计¶
-
三因子潜空间分解:
- 视觉特有 \(Z_v\):VGG16编码器推断,\(q_{\phi_v}(Z_v|V)\)
- 语言特有 \(Z_l\):Transformer编码器推断,\(q_{\phi_l}(Z_l|L)\)
- 共享 \(Z_s\):MoE策略,\(q_{\phi_s}(Z_s|V,L) = \sum_{M} \pi_M q_{\phi_s}(Z_s|M)\)
- 设计动机:强制各潜变量只编码其应有的信息——模态特有潜变量必须能重建对应模态,共享潜变量编码跨模态语义
-
解纠缠对齐约束:
- 正交性约束:\(\mathcal{L}_{orth} = \|\tilde{Z}_s^\top \tilde{Z}_v\|_F^2 + \|\tilde{Z}_s^\top \tilde{Z}_l\|_F^2 + \|\tilde{Z}_v^\top \tilde{Z}_l\|_F^2\),强制三个潜空间统计独立
- 对比对齐:InfoNCE 损失最大化 \(I(Z_s; Z_v)\) 和 \(I(Z_s; Z_l)\),确保共享空间编码了两个模态的语义
- 设计动机:单有ELBO不能保证潜因子有意义。正交性保证分离,对比对齐保证语义相关——两者互补
-
缺失模态下的推断:
- 当语言模态缺失时,传入"null" token,MoE路由器自动将 \(\pi_L \approx 0\),\(\pi_V \approx 1\)
- 理论证明:降级后的目标仍是有效的边际ELBO下界
- 对比对齐训练使 \(Z_s\) 即使只从单模态推断也包含跨模态语义
损失函数 / 训练策略¶
\(\mathcal{L}_{total} = \mathcal{L}_{CE} + \mathcal{L}_{ELBO} + \lambda_1 \mathcal{L}_{orth} + \lambda_2 \mathcal{L}_{align}\)。LLaMA-X 解码器使用RoPE、分组查询注意力、SwiGLU FFN等优化。
实验关键数据¶
主实验¶
| 方法 | IU X-Ray B@4 | MIMIC-CXR B@4 |
|---|---|---|
| R2Gen | 0.165 | 0.103 |
| XProNet | 0.199 | 0.105 |
| EKAGen | 0.203 | - |
| SEI | 0.263 | 0.131 |
| DiA (Ours) | 0.266 | 0.134 |
消融实验¶
- 去掉正交约束:解纠缠质量下降,特征干扰增加
- 去掉对比对齐:缺失模态下性能下降显著
- 去掉MoE(用PoE替代):缺失模态时性能急剧退化
关键发现¶
- MoE 比 PoE 更适合处理缺失模态——PoE 在模态缺失时产生过度自信的后验
- 正交+对比的双约束比单一约束效果显著更好
- LLaMA-X 解码器比大型LLM更高效,避免了模板化生成的局限
- 在模态缺失场景下性能优雅降级而非灾难性失败
亮点与洞察¶
- MoE vs PoE 的理论分析对多模态VAE研究有重要参考价值——PoE在缺失模态下的过度自信问题是一个被忽视但关键的问题
- "优雅降级"的设计理念很适合临床部署——不是"有就用没有就崩",而是根据可用信息自动调整
- 正交+对比的双约束是解纠缠学习的优秀实践——前者保证分离,后者保证语义
局限与展望¶
- 仅在胸部X光报告生成上验证,其他影像模态(CT、MRI)有待测试
- LLaMA-X 的具体规模和训练细节不够清楚
- 对比对齐中的温度参数 \(\tau\) 对性能的敏感性未详细分析
- NLG 指标(BLEU)可能不完全反映临床准确性
相关工作与启发¶
- vs R2Gen/CvT2Dis: 纯图像方法,缺乏上下文信息,DiA通过融合临床上下文提升
- vs SEI: SEI 用检索增强但无解纠缠,特征干扰问题未解决;DiA 的三因子分解更原则化
- vs PromptMRG: 基于提示+LLM的方法计算量大且依赖模板,DiA更高效灵活
- vs DrFuse: DrFuse 也做解纠缠但用对抗目标,DiA 用对比+正交更稳定
评分¶
- 新颖性: ⭐⭐⭐⭐ 三因子VAE + MoE + 双约束的组合设计有理论深度
- 实验充分度: ⭐⭐⭐⭐ 两个标准数据集+消融+缺失模态实验
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,架构图清晰,逻辑流畅
- 价值: ⭐⭐⭐⭐ 对缺失模态下的多模态医学报告生成有实际意义
相关论文¶
- [AAAI 2026] Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark
- [NeurIPS 2025] Variational Autoencoder with Normalizing Flow for X-ray Spectral Fitting
- [CVPR 2026] Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
- [AAAI 2026] Constrained Best Arm Identification with Tests for Feasibility
- [AAAI 2026] Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment