Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering¶

会议: ICLR 2026
arXiv: 2509.23899
代码: 无
领域: 医学图像
关键词: 医学VQA, 频率域融合, 量子检索增强, 多模态融合, 对比学习

一句话总结¶

提出 Q-FSRU 框架，通过 FFT 将医学图像和文本特征变换到频率域进行融合，并引入量子启发的检索增强机制（Quantum RAG）从外部知识库中获取医学事实，在 VQA-RAD 数据集上取得 90.0% 准确率。

Q-FSRU 包含四个核心模块：(1) 多模态特征提取，(2) FFT 频率域处理，(3) 量子启发知识检索，(4) 多模态融合 + 对比学习。流程为：图像和文本特征 → FFT 频谱变换 → 跨模态共选择 → 量子 RAG 检索 → MLP 分类。

频率谱表示与融合 (FSRU):
- 对文本特征 \(t\) 和图像特征 \(v_{\text{proj}}\) 分别做 1D FFT，取幅度谱：\(t_{\text{freq}} = |\mathcal{F}(t)|\)，\(v_{\text{freq}} = |\mathcal{F}(v_{\text{proj}})|\)
- 使用可学习滤波器组（\(K=4\)）压缩频率表示
- 门控注意力机制实现跨模态共选择：\(g_{\text{text}} = \sigma(W_{\text{gate1}} \cdot \text{AvgPool}(v_{\text{compressed}}))\)，增强的文本特征 \(t_{\text{enhanced}} = t_{\text{compressed}} \odot g_{\text{text}}\)
- 设计动机：频率域变换能捕捉医学图像中的全局病理模式，门控机制让两个模态互相增强
量子启发检索增强 (Quantum RAG):
- 将嵌入向量表示为量子态：\(|\psi(x)\rangle = x / \|x\|_2\)
- 使用密度矩阵 \(\rho(x) = |\psi(x)\rangle\langle\psi(x)|\) 提供统计鲁棒性
- 用 Uhlmann 保真度衡量查询与知识库的相似度：\(\text{Fid}(\rho_q, \rho_{k_i})\)
- Top-3 检索后用 softmax 加权聚合：\(k_{\text{agg}} = \sum_{j=1}^{3} \text{softmax}(\text{Sim}_j / \tau) \cdot k_j\)，温度 \(\tau = 0.1\)
- 设计动机：量子保真度可能在高维空间中更好地捕捉语义关系
双对比学习框架:
- 模态内对比：\(\mathcal{L}_{\text{intra}}\)，温度 \(\tau = 0.07\)
- 跨模态对比：\(\mathcal{L}_{\text{cross}}\)，温度 \(\tau = 0.05\)
- 设计动机：拉近同类样本、推远不同类别样本的表示空间

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + (0.3 \cdot \frac{\mathcal{L}_{\text{intra-text}} + \mathcal{L}_{\text{intra-image}}}{2} + 0.7 \cdot \mathcal{L}_{\text{cross}})\)
优化器：Adam，学习率 \(5 \times 10^{-5}\)，L2 正则化权重 \(10^{-5}\)
5 折交叉验证，batch size 32，最大 50 epoch，step-based 衰减（0.98/5 epochs），早停 patience 10
图像编码：ViT-B/16 (ImageNet 预训练)，文本编码：300 维词嵌入 + 均值池化

数据集	指标	Q-FSRU	FSRU (之前SOTA)	提升
VQA-RAD	Accuracy	90.0%	87.1%	+2.9%
VQA-RAD	F1-Score	85.2%	82.3%	+2.9%
VQA-RAD	AUC	0.954	0.921	+0.033
VQA-RAD→PathVQA	Accuracy	81.7%	78.4%	+3.3%
PathVQA→VQA-RAD	Accuracy	80.3%	76.9%	+3.4%

配置	Accuracy	Δ Acc.	说明
Q-FSRU (Full)	90.0%	—	完整模型
w/o Frequency Processing	85.1%	-4.9%	频率处理贡献最大
w/o Quantum Retrieval	86.8%	-3.2%	量子检索有显著帮助
w/o Contrastive Learning	87.3%	-2.7%	对比学习也有贡献
Spatial-only Fusion	84.2%	-5.8%	纯空间融合最差
Cosine Similarity (替代量子)	88.1%	-1.9%	量子相似度优于余弦