Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling¶

会议: AAAI2026
arXiv: 2511.07710
代码: GitHub
领域: multimodal_vlm
关键词: fine-grained alignment, image-text retrieval, uncertainty modeling, Gaussian mixture, region prompting

一句话总结¶

提出 GRM 框架，通过模态内显著性/粒度感知适配器和基于高斯混合的区域级不确定性建模，实现鲁棒的细粒度图文对齐，在 Flickr30K 和 MS-COCO 上取得 SOTA。

背景与动机¶

细粒度图文对齐（fine-grained image-text alignment）是多模态学习的核心任务，需要在局部视觉区域与文本 token 之间建立精确对应关系，直接支撑 VQA、image captioning、vision-language navigation 等下游应用。与全局对齐不同，细粒度对齐需要对物体属性、空间关系、局部实体进行组合推理。

现有方法存在两个关键瓶颈：

缺乏有效的模态内显著性建模：大多数方法依赖跨模态注意力来识别关键 token，但注意力权重由检索目标驱动，往往含噪且缺乏语义基础，容易关注视觉上显著但语义无关的区域，在复杂场景中泛化能力差。
缺乏细粒度不确定性建模：现有不确定性建模集中在图文对级别，假设一对一对应。但实际中一个文本短语可能对应多个区域（one-to-many），一个区域也可能模糊匹配多个 token（many-to-one），区域级别的不确定性几乎未被探索。

核心问题¶

如何在不依赖脆弱跨模态注意力的前提下，有效建模各模态内 token 的重要性？
如何在对齐过程中建模区域级别的细粒度不确定性，捕捉 one-to-many / many-to-one 对应关系？

方法详解¶

GRM 采用双编码器架构（ViT/Swin + BERT），包含三个核心模块：

1. Significance-aware 和 Granularity-aware Adapter¶

两个适配器结构相同但独立实例化，分别对视觉和文本模态操作。以视觉为例：

将视觉表示 \(\mathbf{V} \in \mathbb{R}^{L_v \times d}\) 通过两层线性变换映射到 2 维空间
使用 Gumbel-Softmax 生成软选择掩码 \(\mathbf{A_V} \in [0,1]^{L_v}\)，温度参数 \(\tau\) 控制分布锐利度
通过逐元素乘法筛选显著 token，得到 \(\hat{\mathbf{V}} = \mathbf{M} \odot \mathbf{A_V} \otimes \mathbf{1}_d\)

关键思想：显著性建模应在模态内部完成，利用各模态固有的统计偏差，而非依赖跨模态交互，从而提升泛化能力。

2. Region Prompting¶

引入可学习提示 \(\mathbf{P} = \{p_0, \dots, p_{K-1}\} \in \mathbb{R}^{K \times d}\)，作为潜在区域的语义代理：

对 \(\mathbf{P}\) 做 L2 归一化后，计算 patch token 与 region prompt 之间的注意力得分：\(\mathbf{A}_r = \sigma(\hat{\mathbf{V}} \cdot \hat{\mathbf{P}}^\top)\)，使用 sigmoid 因为一个 patch 可能同时属于多个区域
按列归一化注意力矩阵后进行软聚合，获得每个区域的均值表示 \(\boldsymbol{\mu}_k = \sum_l \hat{\mathbf{A}}_r^{lk} \hat{\mathbf{V}}^l\)

3. Region-level Uncertainty Modeling¶

采用变分视角，将每个区域的语义建模为高斯分布：

用可学习网络 \(\boldsymbol{\phi}\) 从均值 \(\boldsymbol{\mu}_k\) 预测对数方差 \(\log \boldsymbol{\sigma}_k^2\)
通过重参数化技巧采样：\(\mathbf{z}_{lk} = \boldsymbol{\mu}_k + \boldsymbol{\epsilon}_{lk} \odot \exp(\frac{1}{2} \log \boldsymbol{\sigma}_k^2)\)，其中 \(\boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})\)
对采样特征加权聚合得到不确定性感知区域表示 \(\mathbf{u}_k = \sum_l \hat{\mathbf{A}}_{lk} \cdot \mathbf{z}_{lk}\)

整个图像建模为多个区域高斯分布的混合，能捕捉细粒度的语义模糊性。

4. 多层级双向对齐与损失函数¶

对三组特征对分别计算双向 token 级相似度并施加对比损失：

\(\mathcal{L}_{con}^{ori}\)：原始特征对 \((\mathbf{T}, \mathbf{V})\)
\(\mathcal{L}_{con}^{key}\)：显著性/粒度感知特征对 \((\hat{\mathbf{T}}, \hat{\mathbf{V}})\)
\(\mathcal{L}_{con}^{unc}\)：不确定性感知特征对 \((\hat{\mathbf{T}}, \mathbf{U})\)

总对比损失：\(\mathcal{L}_{con} = a\mathcal{L}_{con}^{ori} + b\mathcal{L}_{con}^{key} + c\mathcal{L}_{con}^{unc}\)，最优权重 \(a=b=0.4, c=0.2\)。

辅助正则化：语义一致性约束 \(\mathcal{L}_{recon}\)（区域均值与 patch 均值对齐）、KL 散度正则 \(\mathcal{L}_{KL}\)（后验逼近标准正态）、熵正则 \(\mathcal{L}_{ent}\)（防止注意力坍塌）。

实验关键数据¶

在 Flickr30K 和 MS-COCO 两个基准上全面评估，覆盖六种视觉编码器配置：

配置	Flickr30K rSum	MS-COCO 1K rSum	MS-COCO 5K rSum
ViT-B-224 (Ours)	516.2	532.5	443.0
ViT-B-384 (Ours)	531.8	538.2	451.2
Swin-B-224 (Ours)	546.0	547.5	470.8
Swin-B-384 (Ours)	550.7	548.0	478.3

相比 SOTA 方法 AVSE，rSum 提升范围：Flickr30K +2.1%~+7.3%，MS-COCO 1K +1.3%~+4.0%，MS-COCO 5K +1.9%~+5.6%
消融实验：去除任一模块均导致显著性能下降，SA 和 RP 贡献最大（去除后 rSum 分别降 13.4 和 12.9）
Region prompt 数量：ViT 最优 K=5，Swin 最优 K=50（因 Swin 局部注意力需更多 prompt 捕捉细粒度语义）

亮点¶

模态内建模替代跨模态注意力：通过 Gumbel-Softmax 的模态内显著性建模避免了跨模态注意力的噪声和不鲁棒问题，泛化能力更强
区域级高斯混合不确定性：首次在细粒度图文对齐中引入区域级不确定性建模，用混合高斯分布捕捉 one-to-many / many-to-one 关系
端到端无需检测器：通过 prompt learning 实现区域提取，无需预训练目标检测器，避免了两阶段方法的错误传播
多层级对齐策略：原始/显著性/不确定性三级对齐互补，消融证明各级均有独立贡献
跨骨干架构一致提升：在 ViT/Swin 不同分辨率下均稳定超越 SOTA

局限性 / 可改进方向¶

仅在 Flickr30K 和 MS-COCO 上评估，缺乏在 phrase grounding、referring expression 等更直接的细粒度任务上的验证
高斯分布假设可能过于简单，无法捕捉复杂的多模态语义分布，可探索 normalizing flow 或更灵活的分布族
Region prompt 数量对不同骨干极为敏感（ViT 最优 5 vs Swin 最优 50），缺乏自适应机制
三级对比损失权重需手动调优（\(a, b, c\)），模型对权重组合敏感
未与 CLIP 等大规模预训练模型结合，可探索在预训练特征上做细粒度适配

与相关工作的对比¶

方法	区域提取	不确定性	细粒度级别
CORA/HREM	Faster R-CNN（两阶段）	无	区域-文本
LAPS	ViT patch + 跨模态注意力	无	patch-token
AVSE	ViT patch + 模态自适应	无	patch-token
GRM (本文)	ViT patch + prompt learning	区域级高斯混合	多层级（原始/显著性/不确定性）

GRM 的核心优势在于将显著性建模从跨模态解耦到模态内，并首次引入区域级不确定性，同时保持了端到端可优化性。

启发与关联¶

Gumbel-Softmax 做 token 筛选的思路可扩展到其他需要软选择的场景（如多模态融合中的动态 token 剪枝）
区域级不确定性建模可启发 grounding 任务中的候选框置信度估计
模态内显著性建模的范式可能适用于其他跨模态任务（如视频-文本对齐），避免昂贵的跨模态注意力
多层级对齐的框架可扩展：加入 token 级别的不确定性、句法结构对齐等更多语义层次

评分¶

新颖性: 7/10（模态内显著性 + 区域级不确定性组合新颖，但各单独技术非全新）
实验充分度: 8/10（多骨干、多数据集、详尽消融，缺少 grounding 等更直接任务）
写作质量: 7/10（结构清晰，公式推导完整，但部分叙述略冗余）
价值: 7/10（对细粒度图文对齐有实质改进，但应用范围受限于检索任务）