Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling¶
会议: AAAI2026
arXiv: 2511.07710
代码: GitHub
领域: multimodal_vlm
关键词: fine-grained alignment, image-text retrieval, uncertainty modeling, Gaussian mixture, region prompting
一句话总结¶
提出 GRM 框架,通过模态内显著性/粒度感知适配器和基于高斯混合的区域级不确定性建模,实现鲁棒的细粒度图文对齐,在 Flickr30K 和 MS-COCO 上取得 SOTA。
背景与动机¶
细粒度图文对齐(fine-grained image-text alignment)是多模态学习的核心任务,需要在局部视觉区域与文本 token 之间建立精确对应关系,直接支撑 VQA、image captioning、vision-language navigation 等下游应用。与全局对齐不同,细粒度对齐需要对物体属性、空间关系、局部实体进行组合推理。
现有方法存在两个关键瓶颈:
- 缺乏有效的模态内显著性建模:大多数方法依赖跨模态注意力来识别关键 token,但注意力权重由检索目标驱动,往往含噪且缺乏语义基础,容易关注视觉上显著但语义无关的区域,在复杂场景中泛化能力差。
- 缺乏细粒度不确定性建模:现有不确定性建模集中在图文对级别,假设一对一对应。但实际中一个文本短语可能对应多个区域(one-to-many),一个区域也可能模糊匹配多个 token(many-to-one),区域级别的不确定性几乎未被探索。
核心问题¶
- 如何在不依赖脆弱跨模态注意力的前提下,有效建模各模态内 token 的重要性?
- 如何在对齐过程中建模区域级别的细粒度不确定性,捕捉 one-to-many / many-to-one 对应关系?
方法详解¶
GRM 采用双编码器架构(ViT/Swin + BERT),包含三个核心模块:
1. Significance-aware 和 Granularity-aware Adapter¶
两个适配器结构相同但独立实例化,分别对视觉和文本模态操作。以视觉为例:
- 将视觉表示 \(\mathbf{V} \in \mathbb{R}^{L_v \times d}\) 通过两层线性变换映射到 2 维空间
- 使用 Gumbel-Softmax 生成软选择掩码 \(\mathbf{A_V} \in [0,1]^{L_v}\),温度参数 \(\tau\) 控制分布锐利度
- 通过逐元素乘法筛选显著 token,得到 \(\hat{\mathbf{V}} = \mathbf{M} \odot \mathbf{A_V} \otimes \mathbf{1}_d\)
关键思想:显著性建模应在模态内部完成,利用各模态固有的统计偏差,而非依赖跨模态交互,从而提升泛化能力。
2. Region Prompting¶
引入可学习提示 \(\mathbf{P} = \{p_0, \dots, p_{K-1}\} \in \mathbb{R}^{K \times d}\),作为潜在区域的语义代理:
- 对 \(\mathbf{P}\) 做 L2 归一化后,计算 patch token 与 region prompt 之间的注意力得分:\(\mathbf{A}_r = \sigma(\hat{\mathbf{V}} \cdot \hat{\mathbf{P}}^\top)\),使用 sigmoid 因为一个 patch 可能同时属于多个区域
- 按列归一化注意力矩阵后进行软聚合,获得每个区域的均值表示 \(\boldsymbol{\mu}_k = \sum_l \hat{\mathbf{A}}_r^{lk} \hat{\mathbf{V}}^l\)
3. Region-level Uncertainty Modeling¶
采用变分视角,将每个区域的语义建模为高斯分布:
- 用可学习网络 \(\boldsymbol{\phi}\) 从均值 \(\boldsymbol{\mu}_k\) 预测对数方差 \(\log \boldsymbol{\sigma}_k^2\)
- 通过重参数化技巧采样:\(\mathbf{z}_{lk} = \boldsymbol{\mu}_k + \boldsymbol{\epsilon}_{lk} \odot \exp(\frac{1}{2} \log \boldsymbol{\sigma}_k^2)\),其中 \(\boldsymbol{\epsilon} \sim \mathcal{N}(0, \mathbf{I})\)
- 对采样特征加权聚合得到不确定性感知区域表示 \(\mathbf{u}_k = \sum_l \hat{\mathbf{A}}_{lk} \cdot \mathbf{z}_{lk}\)
整个图像建模为多个区域高斯分布的混合,能捕捉细粒度的语义模糊性。
4. 多层级双向对齐与损失函数¶
对三组特征对分别计算双向 token 级相似度并施加对比损失:
- \(\mathcal{L}_{con}^{ori}\):原始特征对 \((\mathbf{T}, \mathbf{V})\)
- \(\mathcal{L}_{con}^{key}\):显著性/粒度感知特征对 \((\hat{\mathbf{T}}, \hat{\mathbf{V}})\)
- \(\mathcal{L}_{con}^{unc}\):不确定性感知特征对 \((\hat{\mathbf{T}}, \mathbf{U})\)
总对比损失:\(\mathcal{L}_{con} = a\mathcal{L}_{con}^{ori} + b\mathcal{L}_{con}^{key} + c\mathcal{L}_{con}^{unc}\),最优权重 \(a=b=0.4, c=0.2\)。
辅助正则化:语义一致性约束 \(\mathcal{L}_{recon}\)(区域均值与 patch 均值对齐)、KL 散度正则 \(\mathcal{L}_{KL}\)(后验逼近标准正态)、熵正则 \(\mathcal{L}_{ent}\)(防止注意力坍塌)。
实验关键数据¶
在 Flickr30K 和 MS-COCO 两个基准上全面评估,覆盖六种视觉编码器配置:
| 配置 | Flickr30K rSum | MS-COCO 1K rSum | MS-COCO 5K rSum |
|---|---|---|---|
| ViT-B-224 (Ours) | 516.2 | 532.5 | 443.0 |
| ViT-B-384 (Ours) | 531.8 | 538.2 | 451.2 |
| Swin-B-224 (Ours) | 546.0 | 547.5 | 470.8 |
| Swin-B-384 (Ours) | 550.7 | 548.0 | 478.3 |
- 相比 SOTA 方法 AVSE,rSum 提升范围:Flickr30K +2.1%~+7.3%,MS-COCO 1K +1.3%~+4.0%,MS-COCO 5K +1.9%~+5.6%
- 消融实验:去除任一模块均导致显著性能下降,SA 和 RP 贡献最大(去除后 rSum 分别降 13.4 和 12.9)
- Region prompt 数量:ViT 最优 K=5,Swin 最优 K=50(因 Swin 局部注意力需更多 prompt 捕捉细粒度语义)
亮点¶
- 模态内建模替代跨模态注意力:通过 Gumbel-Softmax 的模态内显著性建模避免了跨模态注意力的噪声和不鲁棒问题,泛化能力更强
- 区域级高斯混合不确定性:首次在细粒度图文对齐中引入区域级不确定性建模,用混合高斯分布捕捉 one-to-many / many-to-one 关系
- 端到端无需检测器:通过 prompt learning 实现区域提取,无需预训练目标检测器,避免了两阶段方法的错误传播
- 多层级对齐策略:原始/显著性/不确定性三级对齐互补,消融证明各级均有独立贡献
- 跨骨干架构一致提升:在 ViT/Swin 不同分辨率下均稳定超越 SOTA
局限性 / 可改进方向¶
- 仅在 Flickr30K 和 MS-COCO 上评估,缺乏在 phrase grounding、referring expression 等更直接的细粒度任务上的验证
- 高斯分布假设可能过于简单,无法捕捉复杂的多模态语义分布,可探索 normalizing flow 或更灵活的分布族
- Region prompt 数量对不同骨干极为敏感(ViT 最优 5 vs Swin 最优 50),缺乏自适应机制
- 三级对比损失权重需手动调优(\(a, b, c\)),模型对权重组合敏感
- 未与 CLIP 等大规模预训练模型结合,可探索在预训练特征上做细粒度适配
与相关工作的对比¶
| 方法 | 区域提取 | 不确定性 | 细粒度级别 |
|---|---|---|---|
| CORA/HREM | Faster R-CNN(两阶段) | 无 | 区域-文本 |
| LAPS | ViT patch + 跨模态注意力 | 无 | patch-token |
| AVSE | ViT patch + 模态自适应 | 无 | patch-token |
| GRM (本文) | ViT patch + prompt learning | 区域级高斯混合 | 多层级(原始/显著性/不确定性) |
GRM 的核心优势在于将显著性建模从跨模态解耦到模态内,并首次引入区域级不确定性,同时保持了端到端可优化性。
启发与关联¶
- Gumbel-Softmax 做 token 筛选的思路可扩展到其他需要软选择的场景(如多模态融合中的动态 token 剪枝)
- 区域级不确定性建模可启发 grounding 任务中的候选框置信度估计
- 模态内显著性建模的范式可能适用于其他跨模态任务(如视频-文本对齐),避免昂贵的跨模态注意力
- 多层级对齐的框架可扩展:加入 token 级别的不确定性、句法结构对齐等更多语义层次
评分¶
- 新颖性: 7/10(模态内显著性 + 区域级不确定性组合新颖,但各单独技术非全新)
- 实验充分度: 8/10(多骨干、多数据集、详尽消融,缺少 grounding 等更直接任务)
- 写作质量: 7/10(结构清晰,公式推导完整,但部分叙述略冗余)
- 价值: 7/10(对细粒度图文对齐有实质改进,但应用范围受限于检索任务)