Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering¶
会议: ICLR 2026
arXiv: 2509.23899
代码: 无
领域: 医学图像
关键词: 医学VQA, 频率域融合, 量子检索增强, 多模态融合, 对比学习
一句话总结¶
提出 Q-FSRU 框架,通过 FFT 将医学图像和文本特征变换到频率域进行融合,并引入量子启发的检索增强机制(Quantum RAG)从外部知识库中获取医学事实,在 VQA-RAD 数据集上取得 90.0% 准确率。
研究背景与动机¶
- 医学视觉问答(Med-VQA)需要同时理解医学图像和临床问题,现有方法面临数据稀缺、专业术语复杂、影像模态多样等挑战
- 大多数方法(LLaVA-Med、STLLaVA-Med 等)仅在空间域操作,可能忽略了频率域中隐含的病理模式信息
- 现有的检索增强方法依赖经典余弦相似度,可能无法充分捕捉临床推理所需的复杂语义关系
- 核心动机:频率域变换可以捕捉空间处理遗漏的全局上下文模式;量子启发的相似度度量可能优于经典检索方法
方法详解¶
整体框架¶
Q-FSRU 包含四个核心模块:(1) 多模态特征提取,(2) FFT 频率域处理,(3) 量子启发知识检索,(4) 多模态融合 + 对比学习。流程为:图像和文本特征 → FFT 频谱变换 → 跨模态共选择 → 量子 RAG 检索 → MLP 分类。
关键设计¶
-
频率谱表示与融合 (FSRU):
- 对文本特征 \(t\) 和图像特征 \(v_{\text{proj}}\) 分别做 1D FFT,取幅度谱:\(t_{\text{freq}} = |\mathcal{F}(t)|\),\(v_{\text{freq}} = |\mathcal{F}(v_{\text{proj}})|\)
- 使用可学习滤波器组(\(K=4\))压缩频率表示
- 门控注意力机制实现跨模态共选择:\(g_{\text{text}} = \sigma(W_{\text{gate1}} \cdot \text{AvgPool}(v_{\text{compressed}}))\),增强的文本特征 \(t_{\text{enhanced}} = t_{\text{compressed}} \odot g_{\text{text}}\)
- 设计动机:频率域变换能捕捉医学图像中的全局病理模式,门控机制让两个模态互相增强
-
量子启发检索增强 (Quantum RAG):
- 将嵌入向量表示为量子态:\(|\psi(x)\rangle = x / \|x\|_2\)
- 使用密度矩阵 \(\rho(x) = |\psi(x)\rangle\langle\psi(x)|\) 提供统计鲁棒性
- 用 Uhlmann 保真度衡量查询与知识库的相似度:\(\text{Fid}(\rho_q, \rho_{k_i})\)
- Top-3 检索后用 softmax 加权聚合:\(k_{\text{agg}} = \sum_{j=1}^{3} \text{softmax}(\text{Sim}_j / \tau) \cdot k_j\),温度 \(\tau = 0.1\)
- 设计动机:量子保真度可能在高维空间中更好地捕捉语义关系
-
双对比学习框架:
- 模态内对比:\(\mathcal{L}_{\text{intra}}\),温度 \(\tau = 0.07\)
- 跨模态对比:\(\mathcal{L}_{\text{cross}}\),温度 \(\tau = 0.05\)
- 设计动机:拉近同类样本、推远不同类别样本的表示空间
损失函数 / 训练策略¶
- 总损失:\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + (0.3 \cdot \frac{\mathcal{L}_{\text{intra-text}} + \mathcal{L}_{\text{intra-image}}}{2} + 0.7 \cdot \mathcal{L}_{\text{cross}})\)
- 优化器:Adam,学习率 \(5 \times 10^{-5}\),L2 正则化权重 \(10^{-5}\)
- 5 折交叉验证,batch size 32,最大 50 epoch,step-based 衰减(0.98/5 epochs),早停 patience 10
- 图像编码:ViT-B/16 (ImageNet 预训练),文本编码:300 维词嵌入 + 均值池化
实验关键数据¶
主实验¶
| 数据集 | 指标 | Q-FSRU | FSRU (之前SOTA) | 提升 |
|---|---|---|---|---|
| VQA-RAD | Accuracy | 90.0% | 87.1% | +2.9% |
| VQA-RAD | F1-Score | 85.2% | 82.3% | +2.9% |
| VQA-RAD | AUC | 0.954 | 0.921 | +0.033 |
| VQA-RAD→PathVQA | Accuracy | 81.7% | 78.4% | +3.3% |
| PathVQA→VQA-RAD | Accuracy | 80.3% | 76.9% | +3.4% |
消融实验¶
| 配置 | Accuracy | Δ Acc. | 说明 |
|---|---|---|---|
| Q-FSRU (Full) | 90.0% | — | 完整模型 |
| w/o Frequency Processing | 85.1% | -4.9% | 频率处理贡献最大 |
| w/o Quantum Retrieval | 86.8% | -3.2% | 量子检索有显著帮助 |
| w/o Contrastive Learning | 87.3% | -2.7% | 对比学习也有贡献 |
| Spatial-only Fusion | 84.2% | -5.8% | 纯空间融合最差 |
| Cosine Similarity (替代量子) | 88.1% | -1.9% | 量子相似度优于余弦 |
关键发现¶
- 频率域处理是性能提升的最大贡献者(-4.9%),表明频谱表示确实能捕捉空间域遗漏的临床相关模式
- 量子启发检索比经典余弦相似度高 1.9%,但差距不算巨大
- 模型参数量仅 92.4M,远小于 LLaVA-Med/STLLaVA-Med 的 7B,但在 VQA-RAD 上表现更好
- 跨数据集泛化能力强(+3.3%/+3.4%),说明学到的特征有迁移性
亮点与洞察¶
- 将频率域分析引入 Med-VQA 是一个新颖的探索方向,FFT 的全局信息可能对医学影像分析特别有用
- 量子启发检索是一个有趣但相对初步的尝试,将量子态表示应用于知识检索
- 模型紧凑(92.4M 参数),在资源受限环境下有实际部署价值
局限与展望¶
- 仅在 VQA-RAD 和 PathVQA 两个数据集上验证,数据规模较小(VQA-RAD 仅 3,515 对)
- 量子检索的理论优势描述较多,但实际性能提升相对有限(比余弦仅高 1.9%)
- 缺少与最新大语言模型 (GPT-4V 等) 的对比
- 知识库的构建和维护方式没有详细说明
- 在更复杂的多选/开放式问答上的表现未知
相关工作与启发¶
- 频率域在图像分析(FDTrans)和谣言检测(Lao et al. 2024)中已有成功,本文扩展到 Med-VQA
- 量子启发信息检索(Uprety et al. 2021)为相似度计算提供了新视角
- 跨模态对比学习已成为多模态融合的标准做法
评分¶
- 新颖性: ⭐⭐⭐⭐ 频率域+量子检索的组合在 Med-VQA 中是新颖的
- 实验充分度: ⭐⭐⭐ 数据集较小,缺少与最新 LVLM 对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整
- 价值: ⭐⭐⭐ 轻量级方案有价值,但量子检索的实际优势需更深入验证
相关论文¶
- [ICLR 2026] How Do Medical MLLMs Fail? A Study on Visual Grounding in Medical Images
- [ICLR 2026] CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework
- [ICLR 2026] Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology
- [ICLR 2026] Boosting Medical Visual Understanding From Multi-Granular Language Learning
- [ICLR 2026] SONIC: Spectral Oriented Neural Invariant Convolutions