FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention¶

论文信息¶

会议: AAAI 2026
arXiv: 2511.12215
代码: https://github.com/Aventador8/FaNe
领域: 医学视觉-语言预训练 (Medical VLP)
关键词: 视觉-语言预训练, 假阴性消除, 稀疏注意力, 细粒度对齐, 对比学习, 医学影像

一句话总结¶

FaNe 提出了一个语义增强的医学视觉-语言预训练框架，通过语义感知正样本挖掘、文本条件稀疏注意力池化和难负例感知对比损失，解决医学 VLP 中的假阴性问题和粗粒度对齐不足问题。

研究背景与动机¶

医学视觉-语言预训练 (VLP) 通过利用配对的影像-报告数据来推进医学图像理解。现有 CLIP 风格的方法存在两个核心问题：

假阴性 (False Negative) 问题：在标准 VLP 训练中，每张图像仅与其对应报告构成正样本对，其余均视为负样本。然而在临床实践中，不同患者可能存在相同疾病或病灶，导致报告描述高度相似甚至相同。将这些语义相似但来自不同报告的样本错误地当作负样本，会产生错误的对齐信号。

细粒度对齐不足：CLIP 仅进行全局图像-文本对齐，无法捕捉详细的视觉特征。医学报告中每个句子通常对应图像中特定区域的发现，需要句子级别的局部对齐。现有方法（如 FLAIR）虽尝试文本条件注意力池化，但交叉注意力本身缺乏强制精确空间聚焦的能力。

方法详解¶

整体框架¶

FaNe 包含四个核心组件：语义类别划分 (Semantic Class Division)、多正样本全局对齐 (Multi-Positive Global Alignment)、文本条件细粒度对齐 (Text-Conditioned Fine-Grained Alignment)、难负例模态内对比 (Hard-Negative Intra-Modal Contrast)。

关键设计¶

1. 语义类别划分 (Semantic Class Division)¶

使用预训练知识提取器 BioClinicalBERT 编码报告为全局和局部表示。为消除临床叙述中的语义冗余并稳定跨批次相似度计算，引入语义增强自适应归一化：

计算批次原型 \(p_b\)（批内所有文本全局表示的均值）
计算基础语义相似度 \(\hat{o}_t^*\)（每个报告与原型的平均余弦相似度）
使用 EMA 平滑（\(\alpha=0.05\)）防止跨批次突变
进行中心偏移归一化：\(\widetilde{S} = \frac{S - o_t^*}{1 - o_t^* + \epsilon}\)
通过阈值 \(\kappa\) 构建相似类矩阵 \(H\)，将样本分为正例和负例

2. 多正样本全局对齐¶

标准 CLIP 的 InfoNCE 损失仅支持单个正样本对，无法处理多正样本场景。FaNe 采用 SigLIP 的 sigmoid 对比损失，天然支持批内多正样本对齐：

\[\mathcal{L}_{mp} = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{N}\log\frac{1}{1+e^{h_{ij}(-\langle v_i^g, t_j^g\rangle/\tau_1 + b)}}\]

其中 \(h_{ij}\) 为标签矩阵 \(H\) 中的条目，\(b\) 为可学习偏置项。

3. 文本条件稀疏注意力池化¶

核心创新之一。设计流程：

图像/文本表示提取：独立编码器提取局部和全局特征 \(v^l \in \mathbb{R}^{I \times D}\), \(t^l \in \mathbb{R}^{P \times L \times D}\)
可学习稀疏注意力掩码：通过 MLP 和 sigmoid 激活生成 \(M \in \mathbb{R}^{L \times I}\)，并施加 L1 稀疏约束 \(\mathcal{L}_{spa}\)
跨注意力细粒度对齐：句子级文本嵌入作为 query，聚合局部图像 patch 嵌入，乘以稀疏掩码 \(M\)，生成文本条件视觉表示 \(v^{tc,u}\)
负样本仅从同一报告内的不同句子中选取，避免跨报告假阴性

细粒度对齐损失 \(\mathcal{L}_{tc}\) 为文本→图像和图像→文本两个方向 InfoNCE 的均值。

4. 难负例模态内对比损失¶

通过自适应重加权机制强调语义相似的负样本，增强模态内区分能力：

\[\alpha_{ij} = \frac{y_{ij} \cdot v_i^g \cdot (v_j^g)^T / \tau_3}{\sum_{k \neq i} y_{ik} \cdot v_i^g \cdot (v_k^g)^T / \tau_3}\]

权重 \(\alpha_{ij}\) 和 \(\beta_{ij}\) 使得语义相似度更高的难负例对获得更大权重，迫使模型学习细粒度语义区分。

损失函数¶

总损失为四项加权和：

\[\mathcal{L} = \mathcal{L}_{mp} + \lambda_1 \mathcal{L}_{tc} + \lambda_2 \mathcal{L}_{hn} + \lambda_3 \mathcal{L}_{spa}\]

实验中 \(\lambda_1 = \lambda_2 = \lambda_3 = 1\)。

实验¶

预训练设置¶

数据集：MIMIC-CXR v2（筛选后 182,475 对高质量图像-报告对）
文本编码器：BioClinicalBERT；图像编码器：ResNet50 / ViT-B/16
训练：2× RTX 4090，batch size 98，50 epochs
温度参数 \(\tau_1=0.1\), \(\tau_2=0.07\), \(\tau_3=0.07\)

主实验表格¶

语义分割（Dice）+ 目标检测（mAP）：

方法	RSNA 1%/10%/100%	SIIM 1%/10%/100%	RSNA Det 1%/10%/100%
MLIP	67.7/68.8/73.5	51.6/60.8/68.1	17.2/19.1/25.8
IMITATE	70.5/71.4/73.8	53.9/61.7/64.5	15.3/19.7/26.4
FaNe	69.5/72.4/74.1	54.1/62.3/68.8	16.4/20.6/27.2

图像分类（AUC/ACC）：

方法	CheXpert 1%/10%/100%	RSNA 1%/10%/100%	COVIDx 1%/10%/100%
FaNe (ResNet-50)	88.2/89.1/89.9	88.9/89.8/92.6	78.2/89.1/94.0
FaNe (ViT-B/16)	89.7/90.4/90.8	89.3/90.2/93.1	79.5/90.7/95.5

消融实验¶

稀疏注意力掩码：加入可学习掩码 + 稀疏正则化带来显著提升（RSNA Dice 100%: 71.2→72.6→74.1）
语义自适应归一化：开启后 RSNA Dice 1% 从 67.1 提升至 69.5
各损失项贡献：\(\mathcal{L}_{mp}\) 上加 \(\mathcal{L}_{hn}\) 和 \(\mathcal{L}_{tc}+\mathcal{L}_{spa}\) 均带来递增收益
阈值 \(\kappa\) 敏感性：\(\kappa=0.95\) 时效果最佳

关键发现¶

ViT-B/16 编码器在分类任务上显著优于 ResNet-50，表明 Transformer 架构更适合医学 VLP
稀疏注意力可视化显示模型能准确定位文本描述对应的图像区域（如胸椎侧凸、心脏位置）
FaNe 在低数据比例（1%）场景下优势尤为明显，体现了细粒度预训练的数据效率

亮点与洞察¶

假阴性问题的系统解决：从语义相似度计算、自适应归一化到多正样本对齐，形成完整的假阴性消除流水线
稀疏注意力设计巧妙：医学报告中每个句子通常仅对应图像局部区域，稀疏约束与领域特点完美匹配
模态内对比是重要补充：不仅跨模态对齐，还显式增强模态内区分能力，有助于区分相似但不同的临床发现
句内负采样策略：细粒度对齐的负样本仅从同一报告内选取，有效避免了跨报告假阴性

局限性¶

仅在胸部 X 光数据集 MIMIC-CXR 上预训练和评估，未验证在其他模态（CT、MRI）上的泛化性
阈值 \(\kappa\) 需要预定义，虽然消融实验显示 0.95 效果最佳，但最优值可能因数据集而异
稀疏注意力掩码的稀疏程度由 \(\lambda_3\) 控制，可能需要针对不同任务调优
ResNet-50 上未超越所有方法（如 IMITATE 在 RSNA 分割 1% 处为 70.5 vs FaNe 的 69.5），但 ViT 版本总体最优

评分¶

⭐⭐⭐⭐ (4/5)

问题定义清晰，四个组件环环相扣，在医学 VLP 领域贡献扎实
实验全面覆盖分类/分割/检测三类下游任务，五个基准数据集
稀疏注意力可视化增强了可解释性
扣分点：评估局限于胸部 X 光，方法通用性有待验证