From Adaptation to Generalization: Adaptive Visual Prompting for Medical Image Segmentation¶

会议: CVPR 2026
arXiv: 2604.17455
代码: https://github.com/cetinkayaevren/apex/
领域: 医学图像
关键词: 视觉提示, 域适应, 域泛化, 医学图像分割, 低频特征对比学习

一句话总结¶

提出 APEX（Adaptive Prompt EXtraction），通过从可学习 prompt 记忆中自适应检索输入特定的 visual prompt（而非为每个域固定一个 prompt），结合低频特征对比学习增强域间区分能力，显著提升医学图像分割在已见域和未见域上的泛化性能。

研究背景与动机¶

领域现状：Visual Prompting (VP) 作为域适应方法在医学图像分割中颇受关注。VP 方法在输入图像空间添加可学习参数，优化后可以将目标域数据映射到预训练模型可处理的空间，由于不修改原始模型参数，天然避免了灾难性遗忘。

现有痛点：当前 VP 方法（如 VPT、FVP、A2XP）为每个目标域优化单一 prompt 并统一应用于所有图像。这存在两个根本限制：(1) 忽略域内变异性——同一设备采集的不同图像在采集设置和病理特征上可能差异显著，单一 prompt 过于粗糙；(2) 忽略域间变异性——固定于某域优化的 prompt 难以适配来自不同设备或机构的数据，对未见域的泛化能力有限。

核心矛盾：表达力与泛化性的 trade-off——粗粒度的域级 prompt 表达力不足但易于优化，细粒度的输入级 prompt 表达力强但需要更精巧的检索机制。

本文目标：设计一种自适应 prompt 提取框架，能够根据每张输入图像的特征动态组合最合适的 prompt，同时保证对已见域和未见域的泛化性。

切入角度：医学图像的域偏移主要来源于全局外观变化（对比度、亮度、色调），这些变化编码在频率域的低频分量中。如果能从低频信息中提取域区分性特征，就能精确检索匹配的 prompt。

核心 idea：构建包含多样 prompt 向量的记忆库，用基于低频频谱的域特征编码器查询记忆库，通过加权组合得到输入特定的 prompt，同时用低频特征对比学习 (LFC) 增强域间区分性。

方法详解¶

整体框架¶

输入图像经 FFT 变换提取低频振幅分量，送入 APEX 模块（域特征编码器 → prompt 记忆查询 → prompt 解码器），生成输入特定的 prompt。prompt 以元素乘法应用于原始低频振幅，经 IFFT 重建后送入冻结的分割模型。整个优化过程中只有 APEX 的参数被更新，分割模型参数完全冻结。

关键设计¶

自适应 Prompt 记忆检索:
- 功能：根据输入图像的域特征动态组合最优 prompt
- 核心思路：域特征编码器 \(E^D\) 从低频振幅中提取 K 维特征向量 \(z_m^n\)。Prompt 记忆 \(B \in \mathbb{R}^{J \times K}\) 包含 J 个可学习 prompt 向量（正交初始化）。计算 \(z_m^n\) 与每个 \(b_j\) 的余弦相似度得到寻址向量 \(a_m^n\)，加权求和 \(z_m^{\prime n} = \sum_j a_{m,j}^n \cdot b_j\) 得到最终 prompt 特征，经解码器 \(D^P\) 生成空间 prompt
- 设计动机：加权组合让系统能在特征级别灵活组合已有知识，产生超越任何单一存储 prompt 的适应能力。正交初始化促进记忆槽的多样性
低频特征对比学习 (LFC):
- 功能：增强域特征编码器的域间区分性和域内聚类性
- 核心思路：在域特征 \(z_m^n\) 上加辅助投影头得到 \(z_m^{n,aux}\)。对比损失 \(\mathcal{L}_{LFC}\) 拉近同域样本特征、推远异域样本特征，温度参数 \(\tau\) 控制相似度缩放。辅助投影头仅训练时使用，推理时丢弃
- 设计动机：域特征编码器需要同时捕获域间差异（跨域区分）和域内变异（同域内的精细差别）。对比学习通过聚类同域特征来学习域的共享特性，同时分离不同域来捕获差异
低频空间 Prompt 应用:
- 功能：在不破坏解剖结构的前提下实现有效的域适应
- 核心思路：prompt 仅作用于频率域的低频振幅分量（元素乘法），高频分量和相位信息保持不变
- 设计动机：医学图像的域偏移主要反映在低频（对比度、亮度等全局外观），而高频和相位编码了精细解剖细节和空间布局。在低频空间做 prompt 既能有效适配域偏移，又保护了分割所需的结构信息

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{total} = \mathcal{L}_{Seg} + \mathcal{L}_{LFC}\)。分割损失使用 Dice + Cross-Entropy。记忆 B 通过梯度反传更新。域特征编码器同时受两个损失优化。

实验关键数据¶

主实验¶

任务	Backbone	域类型	Source Only	VPAD(最强基线)	APEX
息肉分割	UNet	已见域 Avg	81.43	82.39	83.75
息肉分割	UNet	未见域 Avg	55.16	56.31	58.03
息肉分割	PraNet	已见域 Avg	81.44	82.45	83.75
OC/OD	UNet	已见域 Avg	85.08	85.88	88.43
OC/OD	UNet	未见域 Avg	73.46	76.76	82.57

消融实验¶

配置	Dice(已见)	Dice(未见)	说明
APEX (Full)	最优	最优	完整方法
w/o LFC	下降	显著下降	域间区分性不足
w/o Memory (单一 prompt)	下降	显著下降	回退到传统 VP
固定 prompt (非自适应)	下降	下降	无法处理域内变异

关键发现¶

在未见域上的提升尤为显著，例如 OC/OD 任务的 RIM-ONE-r3 域上 UNet 提升 41.44% DICE
LFC 对未见域泛化贡献最大——表明域特征的区分性是泛化的关键
APEX 作为即插即用模块，在 5 种不同 backbone 上均一致提升，证明了方法的通用性
记忆槽数 J=150 在多数设置下表现最优

亮点与洞察¶

从"一域一 prompt"到"一图一 prompt"的范式升级思路清晰且有效。记忆+检索的机制让系统在有限的训练域上学到的 prompt 组件可以自由组合，从而泛化到未见域
在低频振幅空间做 prompt 是很有洞察力的设计——既利用了频域的物理可解释性（低频=全局外观=域偏移主因），又保护了分割任务最需要的高频结构信息
方法的即插即用特性使其在临床实际中非常实用，任何现有分割模型都可以搭配 APEX 提升跨域性能

局限与展望¶

需要多个域的数据来训练 APEX，在域数量很少时记忆多样性可能不足
低频 prompt 假设域偏移主要在低频，对于高频域偏移（如不同分辨率）可能效果有限
未验证在 3D 医学图像（CT/MRI 体数据）上的有效性
改进方向：引入在线 prompt 记忆更新机制以适应测试时遇到的新域

评分¶

新颖性: ⭐⭐⭐⭐ 自适应 prompt 检索 + 低频对比学习的组合有创新性
实验充分度: ⭐⭐⭐⭐⭐ 两个任务、5 种 backbone、4 种对比方法、已见/未见域全覆盖
写作质量: ⭐⭐⭐⭐ 动机推导清晰，方法描述详细
价值: ⭐⭐⭐⭐⭐ 即插即用的域泛化方案对医学图像分割非常实用