跳转至

Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering

会议: AAAI 2026
arXiv: 2508.12036
代码: 无
领域: 医学多模态 / 视觉问答
关键词: 医学VQA, 频域融合, 量子检索增强, 快速傅里叶变换, 跨模态推理

一句话总结

提出 Q-FSRU 模型,将医学图像和文本特征转换到频域(FFT)进行融合,并结合量子启发的检索增强生成(Quantum RAG)引入外部医学知识,在 VQA-RAD 数据集上取得 90% 准确率和 0.9541 的 ROC-AUC。

研究背景与动机

医学视觉问答(Medical VQA)是一项融合计算机视觉、自然语言处理和临床推理的跨学科任务。在实际临床场景中,放射科医生经常需要对医学影像提出问题(如"是否存在肺部病变?""CT 是否显示积液?"),这不仅需要理解影像的视觉内容,还需要上下文知识和自然语言的深度理解。

现有模型存在以下几个核心局限:

空间域特征的局限:大多数 VQA 模型在空间域工作,依赖卷积或注意力机制提取特征。这些方法可能忽略医学影像中微妙的频率模式——频域表示可以捕获空间域中经常被遗漏的全局上下文线索。

经典检索方法的浅层对齐:检索增强生成(RAG)方法虽然能引入外部知识,但通常依赖余弦相似度等经典度量,这种浅层匹配难以完全与医学推理对齐。

数据稀缺和高风险决策:医学领域的特殊性——域特定语言、复杂影像模态、数据稀缺以及高风险决策——使得通用 VQA 模型难以直接迁移。

本文的核心动机是:结合频域表示的去噪和全局模式捕获能力,以及量子启发检索的深层知识对齐能力,构建更强大、更可解释的医学 VQA 系统。

方法详解

整体框架

Q-FSRU 模型由四个核心模块组成(见图1):

  1. 单模态特征编码(Unimodal Feature Encoding)
  2. 频谱表示与融合(Frequency Spectrum Representation and Fusion, FSRU)
  3. 量子增强知识检索(Quantum RAG)
  4. 联合推理与答案生成(Answer Generation)

整体任务定义为分类问题:给定医学影像 \(x_i^{\text{image}} \in \mathbb{R}^{H \times W \times 3}\) 和自然语言问题 \(q_i\),预测答案 \(\hat{y}_i \in \{0, 1\}\)

关键设计

  1. 单模态特征编码

    • 文本编码器:使用 BioBERT 将临床问题编码为 768 维文本嵌入 \(t = E_t(Q) \in \mathbb{R}^{d_t}\)
    • 视觉编码器:使用 ImageNet 预训练的 ResNet-50 提取 2048 维视觉嵌入 \(v = E_v(I) \in \mathbb{R}^{d_v}\)

这两个编码器分别捕获文本的语义模式和影像的空间特征,为后续的频域融合提供基础表示。

  1. 频谱表示与融合(FSRU)

这是模型的核心创新之一。不直接融合空间域特征,而是先将两个模态的嵌入转换到频域:

$\(v_{\text{freq}} = \text{FFT}(v), \quad t_{\text{freq}} = \text{FFT}(t)\)$

频域变换的优势在于: - 突出全局模式:频率成分可以捕获空间形式下不易观察的全局语义特征 - 抑制噪声:过滤掉不相关的空间噪声信号 - 保持跨模态关系:频域融合更好地保留了模态间的全局关联

融合通过向量拼接实现:

$\(f_{\text{freq}} = [v_{\text{freq}} \| t_{\text{freq}}] \in \mathbb{R}^{d_v + d_t}\)$

在拼接前,两个模态通过可学习的线性投影层确保维度兼容,然后使用门控注意力机制进行对齐。

  1. 量子检索增强生成(Quantum RAG)

这是模型的另一核心创新。在频域融合之后,使用量子启发的检索机制引入外部医学知识:

  • 知识嵌入:预先用 BioBERT 编码一组医学知识段落/键 \(k_i\) 并存储为向量库
  • 量子相似度计算:将融合特征 \(f_{\text{freq}}\) 和每个知识键 \(k_i\) 编码为量子态 \(\psi_f\)\(\psi_{k_i}\),计算量子内积振幅:

$\(\text{Sim}_q(f_{\text{freq}}, k_i) = |\langle \psi_f | \psi_{k_i} \rangle|^2\)$

  • Top-K 聚合:检索排名前 \(k\) 的知识向量并求平均:

$\(k_{\text{agg}} = \text{TopK-Avg}(K, \text{Sim}_q)\)$

量子相似度的优势在于能捕获非经典的关联关系,比传统点积更精细。

  1. 答案生成

将最终融合特征通过全连接层 + Softmax 生成预测:

$\(\hat{y} = \text{Softmax}(W \cdot f + b)\)$

选择概率最高的类别作为模型输出。

损失函数 / 训练策略

  • 损失函数:Focal Loss + Label Smoothing,应对类别不平衡
  • 优化器:Adam,学习率 \(1 \times 10^{-4}\)
  • 训练设置:30 epochs,batch size 8,cosine annealing 学习率调度
  • 评估方式:5 折分层交叉验证
  • 硬件:CPU 训练(增加了训练时间但不影响实验完整性)

实验关键数据

主实验

指标 Q-FSRU 说明
总体准确率 90.00% 二分类任务
精确率 83.04% 正类预测的正确率
召回率 78.15% 正类的覆盖率
F1-Score 80.52% 精确率和召回率的调和平均
ROC-AUC 0.9541 区分正负类的能力
训练准确率峰值 92.00% 模型学习能力

分类别结果:

类别 精确率 召回率 F1-Score 样本数
Class 0(阴性/非诊断) 92.31% 94.26% 93.27% 331
Class 1(阳性/诊断) 83.04% 78.15% 80.52% 119

消融实验

5 折交叉验证详细结果:

Fold 准确率 精确率 召回率 F1-Score ROC-AUC
1 0.913 0.905 0.922 0.913 0.945
2 0.908 0.897 0.934 0.915 0.948
3 0.921 0.912 0.939 0.925 0.951
4 0.917 0.905 0.943 0.923 0.950
5 0.920 0.914 0.936 0.925 0.953
均值 0.916 0.906 0.935 0.920 0.949

关键发现

  1. ROC-AUC 达到 0.9541:表明模型在不同阈值下区分正负类的能力很强
  2. Class 1 召回率略低(78.15%):部分真阳性被遗漏,反映了正类样本较少带来的挑战
  3. 5 折验证结果稳定:准确率在 0.908-0.921 之间波动,标准差很小
  4. 训练-验证准确率差异合理(92% vs 90%),未出现严重过拟合
  5. 混淆矩阵:450个样本中 312 个真阴性、93 个真阳性、19 个假阳性、26 个假阴性

亮点与洞察

  1. 频域融合的思路有趣:将 FFT 应用于文本和图像嵌入的融合,理论上可以捕获空间域遗漏的全局频率模式。这一思路在 Lao et al. (2024) 的多模态谣言检测中已有验证,本文将其引入医学 VQA。

  2. 量子启发检索的概念新颖:将量子态内积振幅作为相似度度量是一种有意思的尝试,理论上可以捕获非线性、非经典的语义关联。

  3. 问题定义清晰:将医学 VQA 形式化为分类问题,数学表述完整。

局限与展望

  1. 缺乏与现有方法的直接对比:论文承认"缺少直接可比的模型",仅使用自身 5 折验证作为基线。没有与 MEVF、BAN、SAN 等经典医学 VQA 方法对比,说服力不足。

  2. 仅在 VQA-RAD 单一数据集上评估:VQA-RAD 仅有约 3500 个 QA 对和 315 张影像,规模较小。缺少在 PathVQA、SLAKE 等其他基准上的验证。

  3. 二分类设定过于简化:将医学 VQA 简化为 yes/no 二分类忽略了开放式问答(如"这个病变是什么?"),限制了实际临床价值。

  4. "量子"组件的实质性存疑:所谓"量子态"实际上是经典向量的归一化和内积运算,与真正的量子计算(量子叠加、纠缠等)没有实质联系。更准确地说,这是一种受量子力学启发的经典相似度计算。

  5. CPU 训练的限制:在 CPU 上训练限制了可扩展性,无法验证在更大规模数据集或模型上的表现。

  6. 频域融合仅为简单拼接:FFT 后直接拼接两个模态的频率向量,缺乏更精细的频域交互机制(如频域注意力、频带选择等)。

相关工作与启发

  • FDTrans (Zhou et al. 2023): 频域 Transformer 用于多模态医学影像分析——与本文共享频域处理思路,但 FDTrans 不做 VQA
  • FreqU-FNet (Singh & Patel 2024): 频率感知 U-Net 用于医学分割——同样使用 FFT 但面向像素级任务
  • RAG (Lewis et al. 2020): 检索增强生成——Quantum RAG 的基础框架
  • Lao et al. (2024): 多模态频谱融合用于谣言检测——Q-FSRU 的直接灵感来源
  • 频域融合和量子启发检索的组合思路虽然新颖,但各组件的实验验证尚需更充分的消融研究来证明其有效性

评分

  • 新颖性: ⭐⭐⭐ — 频域融合+量子检索的组合是新颖尝试,但各组件的创新深度有限
  • 技术深度: ⭐⭐ — 方法设计相对简单,"量子"部分更多是命名上的新颖,实质为经典计算
  • 实用性: ⭐⭐ — 仅在小规模数据集上做二分类,缺乏与 SOTA 直接对比,实际临床价值有限
  • 清晰度: ⭐⭐⭐ — 数学表述清晰,但实验部分缺乏对比基线

相关论文