Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment¶

会议: CVPR 2026 arXiv: 2603.17655 代码: CC-CDFSL 领域: 医学图像 关键词: 跨域少样本学习, CLIP, 局部特征对齐, 循环一致性, 可解释性

一句话总结¶

发现并解决了 CLIP 在跨域少样本学习（CDFSL）中的局部特征对齐退化问题，提出基于循环一致性的 CC-CDFSL 框架，通过 T-I-T 和 I-T-I 双向循环路径和语义锚点机制改善 patch 级视觉-语言对齐，同时增强模型的可解释性。

CLIP 等视觉-语言模型为跨域少样本学习提供了强大基础，但存在关键问题：在目标域微调后，模型难以聚焦于细粒度视觉线索（如肺部X光中的磨玻璃影、局部结节等）。作者发现，虽然 CLIP 在源域可以粗略覆盖所有重要区域，但跨域后局部 patch 特征与文本特征的对齐退化远比全局特征严重。

定量验证：测量全局对齐分数 \(\text{A}_g\) 和局部对齐分数 \(\text{A}_l\)，发现跨域任务中 \(\text{A}_l\) 的下降显著大于 \(\text{A}_g\)，证实域差距和稀缺数据对局部特征对齐的伤害更大。

这在医学诊断等需要细粒度识别的下游领域尤为关键——例如肺炎的微妙纹理或密度变化仅出现在少量 patch 中，模型的 heatmap 却只能粗略勾画身体轮廓。

在 CLIP 微调基础上添加三个模块：语义锚点（SA）的增强阶段 → T-I-T 循环一致性 → SA 的收缩阶段 → I-T-I 循环一致性。整体作为正则化损失附加到标准交叉熵损失。

T-I-T 循环一致性（Text-to-Image-to-Text）: 对每个文本特征 \(\mathbf{T}_j\)，在所有 patch 特征中选择最相似的 \(\mathbf{L}_j^* = \mathbf{L}_{\arg\max_i \mathbf{D}_{j,i}^{txt}}\)，再将该 patch 映射回文本空间找到最相似的文本 \(\mathbf{T}_j^{rec}\)，约束 \(\mathbf{T}_j \approx \mathbf{T}_j^{rec}\)。损失 \(\mathcal{L}_{\text{cyc\_txt}} = 1 - \frac{1}{C}\sum_{j=1}^{C}\text{sim}(\mathbf{T}_j, \mathbf{T}_j^{rec})\)。设计动机：类比翻译任务的循环一致性，无需 patch 级标注就能对齐局部视觉和文本语义。
语义锚点机制（Semantic Anchor, SA）: 增强阶段——对每张图像生成 \(A\) 个增强视图，扩展 patch 候选池 \(\mathbf{X}_{aug} \in \mathbb{R}^{((A+1) \cdot M) \times d}\)；收缩阶段——为每类选择 top-\(k\) 最相似 patch 作为语义锚点 \(\mathbf{X}_{anchor}\)，过滤噪声/无关背景区域。设计动机：视觉模态信息更丰富但含噪声，先增广提供多样性（为 T-I-T 提供大候选池），再收缩去噪（为 I-T-I 保留核心语义）。
I-T-I 循环一致性（Image-to-Text-to-Image）: 对每个锚点 \(\mathbf{x}_n\)，找最相似文本 \(t_n\)，再用 \(t_n\) 在增强视图空间中检索最相似 patch \(\hat{\mathbf{x}}_n\)，约束 \(\mathbf{x}_n \approx \hat{\mathbf{x}}_n\)。跨视图检索策略增强了对输入变换（旋转、翻转）的鲁棒性。

\[\mathcal{L}_{total} = \mathcal{L}_{CE} + \lambda_1 \mathcal{L}_{\text{cyc\_txt}} + \lambda_2 \mathcal{L}_{\text{cyc\_img}}\]

数据集	任务	CLIP-LoRA	CLIP-LoRA + Ours	提升
ISIC (皮肤)	5-way 1-shot	35.23	38.13	+2.90
ChestX (胸片)	5-way 1-shot	21.73	22.21	+0.48
EuroSAT (卫星)	5-way 1-shot	81.49	86.07	+4.58
CropDisease	5-way 1-shot	85.11	88.91	+3.80
ISIC	5-way 5-shot	50.68	54.72	+4.04
EuroSAT	5-way 5-shot	92.63	94.35	+1.72

配置	ISIC	ChestX	EuroSAT	Crop.	平均
Baseline	50.68	24.44	92.63	96.20	65.98
+ T-I-T	51.13	25.15	93.79	96.37	66.61
+ T-I-T + SA	54.30	25.35	94.33	96.95	67.73
+ I-T-I + SA	53.81	25.14	93.83	97.01	67.45
Full (T-I-T + I-T-I + SA)	54.72	25.47	94.35	97.08	67.90