Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering¶

会议: AAAI 2026
arXiv: 2508.12036
代码: 无
领域: 医学多模态 / 视觉问答
关键词: 医学VQA, 频域融合, 量子检索增强, 快速傅里叶变换, 跨模态推理

一句话总结¶

提出 Q-FSRU 模型，将医学图像和文本特征转换到频域（FFT）进行融合，并结合量子启发的检索增强生成（Quantum RAG）引入外部医学知识，在 VQA-RAD 数据集上取得 90% 准确率和 0.9541 的 ROC-AUC。

研究背景与动机¶

医学视觉问答（Medical VQA）是一项融合计算机视觉、自然语言处理和临床推理的跨学科任务。在实际临床场景中，放射科医生经常需要对医学影像提出问题（如"是否存在肺部病变？""CT 是否显示积液？"），这不仅需要理解影像的视觉内容，还需要上下文知识和自然语言的深度理解。

现有模型存在以下几个核心局限：

空间域特征的局限：大多数 VQA 模型在空间域工作，依赖卷积或注意力机制提取特征。这些方法可能忽略医学影像中微妙的频率模式——频域表示可以捕获空间域中经常被遗漏的全局上下文线索。

经典检索方法的浅层对齐：检索增强生成（RAG）方法虽然能引入外部知识，但通常依赖余弦相似度等经典度量，这种浅层匹配难以完全与医学推理对齐。

数据稀缺和高风险决策：医学领域的特殊性——域特定语言、复杂影像模态、数据稀缺以及高风险决策——使得通用 VQA 模型难以直接迁移。

本文的核心动机是：结合频域表示的去噪和全局模式捕获能力，以及量子启发检索的深层知识对齐能力，构建更强大、更可解释的医学 VQA 系统。

方法详解¶

整体框架¶

Q-FSRU 模型由四个核心模块组成（见图1）：

单模态特征编码（Unimodal Feature Encoding）
频谱表示与融合（Frequency Spectrum Representation and Fusion, FSRU）
量子增强知识检索（Quantum RAG）
联合推理与答案生成（Answer Generation）

整体任务定义为分类问题：给定医学影像 $x_i^{\text{image}} \in \mathbb{R}^{H \times W \times 3}$ 和自然语言问题 $q_i$，预测答案 $\hat{y}_i \in \{0, 1\}$。

关键设计¶

单模态特征编码
- 文本编码器：使用 BioBERT 将临床问题编码为 768 维文本嵌入 $t = E_t(Q) \in \mathbb{R}^{d_t}$
- 视觉编码器：使用 ImageNet 预训练的 ResNet-50 提取 2048 维视觉嵌入 $v = E_v(I) \in \mathbb{R}^{d_v}$

这两个编码器分别捕获文本的语义模式和影像的空间特征，为后续的频域融合提供基础表示。

频谱表示与融合（FSRU）

这是模型的核心创新之一。不直接融合空间域特征，而是先将两个模态的嵌入转换到频域：

$$v_{\text{freq}} = \text{FFT}(v), \quad t_{\text{freq}} = \text{FFT}(t)$$

频域变换的优势在于： - 突出全局模式：频率成分可以捕获空间形式下不易观察的全局语义特征 - 抑制噪声：过滤掉不相关的空间噪声信号 - 保持跨模态关系：频域融合更好地保留了模态间的全局关联

融合通过向量拼接实现：

$$f_{\text{freq}} = [v_{\text{freq}} \| t_{\text{freq}}] \in \mathbb{R}^{d_v + d_t}$$

在拼接前，两个模态通过可学习的线性投影层确保维度兼容，然后使用门控注意力机制进行对齐。

量子检索增强生成（Quantum RAG）

这是模型的另一核心创新。在频域融合之后，使用量子启发的检索机制引入外部医学知识：

知识嵌入：预先用 BioBERT 编码一组医学知识段落/键 $k_i$ 并存储为向量库
量子相似度计算：将融合特征 $f_{\text{freq}}$ 和每个知识键 $k_i$ 编码为量子态 $\psi_f$ 和 $\psi_{k_i}$，计算量子内积振幅：

$$\text{Sim}_q(f_{\text{freq}}, k_i) = |\langle \psi_f | \psi_{k_i} \rangle|^2$$

Top-K 聚合：检索排名前 $k$ 的知识向量并求平均：

$$k_{\text{agg}} = \text{TopK-Avg}(K, \text{Sim}_q)$$

量子相似度的优势在于能捕获非经典的关联关系，比传统点积更精细。

答案生成

将最终融合特征通过全连接层 + Softmax 生成预测：

$$\hat{y} = \text{Softmax}(W \cdot f + b)$$

选择概率最高的类别作为模型输出。

损失函数 / 训练策略¶

损失函数：Focal Loss + Label Smoothing，应对类别不平衡
优化器：Adam，学习率 $1 \times 10^{-4}$
训练设置：30 epochs，batch size 8，cosine annealing 学习率调度
评估方式：5 折分层交叉验证
硬件：CPU 训练（增加了训练时间但不影响实验完整性）

实验关键数据¶

主实验¶

指标	Q-FSRU	说明
总体准确率	90.00%	二分类任务
精确率	83.04%	正类预测的正确率
召回率	78.15%	正类的覆盖率
F1-Score	80.52%	精确率和召回率的调和平均
ROC-AUC	0.9541	区分正负类的能力
训练准确率峰值	92.00%	模型学习能力

分类别结果：

类别	精确率	召回率	F1-Score	样本数
Class 0（阴性/非诊断）	92.31%	94.26%	93.27%	331
Class 1（阳性/诊断）	83.04%	78.15%	80.52%	119

消融实验¶

5 折交叉验证详细结果：

Fold	准确率	精确率	召回率	F1-Score	ROC-AUC
1	0.913	0.905	0.922	0.913	0.945
2	0.908	0.897	0.934	0.915	0.948
3	0.921	0.912	0.939	0.925	0.951
4	0.917	0.905	0.943	0.923	0.950
5	0.920	0.914	0.936	0.925	0.953
均值	0.916	0.906	0.935	0.920	0.949

关键发现¶

ROC-AUC 达到 0.9541：表明模型在不同阈值下区分正负类的能力很强
Class 1 召回率略低（78.15%）：部分真阳性被遗漏，反映了正类样本较少带来的挑战
5 折验证结果稳定：准确率在 0.908-0.921 之间波动，标准差很小
训练-验证准确率差异合理（92% vs 90%），未出现严重过拟合
混淆矩阵：450个样本中 312 个真阴性、93 个真阳性、19 个假阳性、26 个假阴性

亮点与洞察¶

频域融合的思路有趣：将 FFT 应用于文本和图像嵌入的融合，理论上可以捕获空间域遗漏的全局频率模式。这一思路在 Lao et al. (2024) 的多模态谣言检测中已有验证，本文将其引入医学 VQA。
量子启发检索的概念新颖：将量子态内积振幅作为相似度度量是一种有意思的尝试，理论上可以捕获非线性、非经典的语义关联。
问题定义清晰：将医学 VQA 形式化为分类问题，数学表述完整。

局限与展望¶

缺乏与现有方法的直接对比：论文承认"缺少直接可比的模型"，仅使用自身 5 折验证作为基线。没有与 MEVF、BAN、SAN 等经典医学 VQA 方法对比，说服力不足。
仅在 VQA-RAD 单一数据集上评估：VQA-RAD 仅有约 3500 个 QA 对和 315 张影像，规模较小。缺少在 PathVQA、SLAKE 等其他基准上的验证。
二分类设定过于简化：将医学 VQA 简化为 yes/no 二分类忽略了开放式问答（如"这个病变是什么？"），限制了实际临床价值。
"量子"组件的实质性存疑：所谓"量子态"实际上是经典向量的归一化和内积运算，与真正的量子计算（量子叠加、纠缠等）没有实质联系。更准确地说，这是一种受量子力学启发的经典相似度计算。
CPU 训练的限制：在 CPU 上训练限制了可扩展性，无法验证在更大规模数据集或模型上的表现。
频域融合仅为简单拼接：FFT 后直接拼接两个模态的频率向量，缺乏更精细的频域交互机制（如频域注意力、频带选择等）。

评分¶

新颖性: ⭐⭐⭐ — 频域融合+量子检索的组合是新颖尝试，但各组件的创新深度有限
技术深度: ⭐⭐ — 方法设计相对简单，"量子"部分更多是命名上的新颖，实质为经典计算
实用性: ⭐⭐ — 仅在小规模数据集上做二分类，缺乏与 SOTA 直接对比，实际临床价值有限
清晰度: ⭐⭐⭐ — 数学表述清晰，但实验部分缺乏对比基线