跳转至

Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering

会议: ICLR 2026
arXiv: 2509.23899
代码: 无
领域: 医学图像
关键词: 医学VQA, 频率域融合, 量子检索增强, 多模态融合, 对比学习

一句话总结

提出 Q-FSRU 框架,通过 FFT 将医学图像和文本特征变换到频率域进行融合,并引入量子启发的检索增强机制(Quantum RAG)从外部知识库中获取医学事实,在 VQA-RAD 数据集上取得 90.0% 准确率。

研究背景与动机

  • 医学视觉问答(Med-VQA)需要同时理解医学图像和临床问题,现有方法面临数据稀缺、专业术语复杂、影像模态多样等挑战
  • 大多数方法(LLaVA-Med、STLLaVA-Med 等)仅在空间域操作,可能忽略了频率域中隐含的病理模式信息
  • 现有的检索增强方法依赖经典余弦相似度,可能无法充分捕捉临床推理所需的复杂语义关系
  • 核心动机:频率域变换可以捕捉空间处理遗漏的全局上下文模式;量子启发的相似度度量可能优于经典检索方法

方法详解

整体框架

Q-FSRU 包含四个核心模块:(1) 多模态特征提取,(2) FFT 频率域处理,(3) 量子启发知识检索,(4) 多模态融合 + 对比学习。流程为:图像和文本特征 → FFT 频谱变换 → 跨模态共选择 → 量子 RAG 检索 → MLP 分类。

关键设计

  1. 频率谱表示与融合 (FSRU):

    • 对文本特征 \(t\) 和图像特征 \(v_{\text{proj}}\) 分别做 1D FFT,取幅度谱:\(t_{\text{freq}} = |\mathcal{F}(t)|\)\(v_{\text{freq}} = |\mathcal{F}(v_{\text{proj}})|\)
    • 使用可学习滤波器组(\(K=4\))压缩频率表示
    • 门控注意力机制实现跨模态共选择:\(g_{\text{text}} = \sigma(W_{\text{gate1}} \cdot \text{AvgPool}(v_{\text{compressed}}))\),增强的文本特征 \(t_{\text{enhanced}} = t_{\text{compressed}} \odot g_{\text{text}}\)
    • 设计动机:频率域变换能捕捉医学图像中的全局病理模式,门控机制让两个模态互相增强
  2. 量子启发检索增强 (Quantum RAG):

    • 将嵌入向量表示为量子态:\(|\psi(x)\rangle = x / \|x\|_2\)
    • 使用密度矩阵 \(\rho(x) = |\psi(x)\rangle\langle\psi(x)|\) 提供统计鲁棒性
    • 用 Uhlmann 保真度衡量查询与知识库的相似度:\(\text{Fid}(\rho_q, \rho_{k_i})\)
    • Top-3 检索后用 softmax 加权聚合:\(k_{\text{agg}} = \sum_{j=1}^{3} \text{softmax}(\text{Sim}_j / \tau) \cdot k_j\),温度 \(\tau = 0.1\)
    • 设计动机:量子保真度可能在高维空间中更好地捕捉语义关系
  3. 双对比学习框架:

    • 模态内对比:\(\mathcal{L}_{\text{intra}}\),温度 \(\tau = 0.07\)
    • 跨模态对比:\(\mathcal{L}_{\text{cross}}\),温度 \(\tau = 0.05\)
    • 设计动机:拉近同类样本、推远不同类别样本的表示空间

损失函数 / 训练策略

  • 总损失:\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{CE}} + (0.3 \cdot \frac{\mathcal{L}_{\text{intra-text}} + \mathcal{L}_{\text{intra-image}}}{2} + 0.7 \cdot \mathcal{L}_{\text{cross}})\)
  • 优化器:Adam,学习率 \(5 \times 10^{-5}\),L2 正则化权重 \(10^{-5}\)
  • 5 折交叉验证,batch size 32,最大 50 epoch,step-based 衰减(0.98/5 epochs),早停 patience 10
  • 图像编码:ViT-B/16 (ImageNet 预训练),文本编码:300 维词嵌入 + 均值池化

实验关键数据

主实验

数据集 指标 Q-FSRU FSRU (之前SOTA) 提升
VQA-RAD Accuracy 90.0% 87.1% +2.9%
VQA-RAD F1-Score 85.2% 82.3% +2.9%
VQA-RAD AUC 0.954 0.921 +0.033
VQA-RAD→PathVQA Accuracy 81.7% 78.4% +3.3%
PathVQA→VQA-RAD Accuracy 80.3% 76.9% +3.4%

消融实验

配置 Accuracy Δ Acc. 说明
Q-FSRU (Full) 90.0% 完整模型
w/o Frequency Processing 85.1% -4.9% 频率处理贡献最大
w/o Quantum Retrieval 86.8% -3.2% 量子检索有显著帮助
w/o Contrastive Learning 87.3% -2.7% 对比学习也有贡献
Spatial-only Fusion 84.2% -5.8% 纯空间融合最差
Cosine Similarity (替代量子) 88.1% -1.9% 量子相似度优于余弦

关键发现

  • 频率域处理是性能提升的最大贡献者(-4.9%),表明频谱表示确实能捕捉空间域遗漏的临床相关模式
  • 量子启发检索比经典余弦相似度高 1.9%,但差距不算巨大
  • 模型参数量仅 92.4M,远小于 LLaVA-Med/STLLaVA-Med 的 7B,但在 VQA-RAD 上表现更好
  • 跨数据集泛化能力强(+3.3%/+3.4%),说明学到的特征有迁移性

亮点与洞察

  • 将频率域分析引入 Med-VQA 是一个新颖的探索方向,FFT 的全局信息可能对医学影像分析特别有用
  • 量子启发检索是一个有趣但相对初步的尝试,将量子态表示应用于知识检索
  • 模型紧凑(92.4M 参数),在资源受限环境下有实际部署价值

局限与展望

  • 仅在 VQA-RAD 和 PathVQA 两个数据集上验证,数据规模较小(VQA-RAD 仅 3,515 对)
  • 量子检索的理论优势描述较多,但实际性能提升相对有限(比余弦仅高 1.9%)
  • 缺少与最新大语言模型 (GPT-4V 等) 的对比
  • 知识库的构建和维护方式没有详细说明
  • 在更复杂的多选/开放式问答上的表现未知

相关工作与启发

  • 频率域在图像分析(FDTrans)和谣言检测(Lao et al. 2024)中已有成功,本文扩展到 Med-VQA
  • 量子启发信息检索(Uprety et al. 2021)为相似度计算提供了新视角
  • 跨模态对比学习已成为多模态融合的标准做法

评分

  • 新颖性: ⭐⭐⭐⭐ 频率域+量子检索的组合在 Med-VQA 中是新颖的
  • 实验充分度: ⭐⭐⭐ 数据集较小,缺少与最新 LVLM 对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整
  • 价值: ⭐⭐⭐ 轻量级方案有价值,但量子检索的实际优势需更深入验证

相关论文