AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation¶

会议: ICLR 2026
arXiv: 2602.22740
代码: GitHub
领域: segmentation
关键词: referring image segmentation, vision-language alignment, masked learning, cross-modal similarity

一句话总结¶

提出对齐感知遮蔽学习(AML)策略，通过量化视觉-语言 patch 级对齐度并过滤低对齐像素，让 RIS 模型在训练时聚焦可靠区域，无需架构改动即在 RefCOCO 全部 8 个 split 上达到 SOTA。

背景与动机¶

指称图像分割(RIS)需要根据自然语言表达精准分割图像中的目标对象，依赖跨模态精细对齐
RIS 训练中每个样本通常仅有一个标注目标，监督信号稀疏
理解"离人最近的长颈鹿"等表达需要依赖视觉上下文中其他物体的空间关系
现有方法(LAVT/CARIS/DETRIS)通过复杂融合模块增强对齐，但对全部像素施加损失会引入不可靠梯度
在密集损失下，模型容易过拟合到与表达无关的区域
数据增强方法(翻转/颜色抖动)易破坏指称表达的语义一致性

方法详解¶

整体框架: 两阶段训练(共享参数)——第一阶段前向计算对齐图并生成遮蔽，第二阶段在遮蔽图像上正常训练

PatchMax Matching Evaluation (PMME): - 将视觉特征 \(V\) 和文本特征 \(T\) 分别 \(\ell_2\) 归一化 - 用随机高斯矩阵 \(W_i, W_t\) 投影到公共 \(D_a\) 维空间(Johnson-Lindenstrauss 保距) - 计算 \(S_{norm} = \text{SoftMax}(V'T'^{\top})\)，每个 patch 取与最强匹配 token 的最大相似度

Alignment-Aware Filtering Mask (AFM): - 将 patch 级相似度双线性上采样到像素级 - 低于阈值 \(\tau\) 的像素标记为弱对齐，随机保留 \(1-\rho\) 比例(防过滤) - 按 block 聚合遮蔽(任一像素弱对齐则整块遮蔽)，对输入图像 zero-out

关键超参: \(\tau=0.4\), \(\rho=0.25\), block \(32\times32\), \(D_a=2048\)

损失: 标准交叉熵分割损失 \(\mathcal{L}_{seg}\)，无额外损失项

实验关键数据¶

方法	RefCOCO val	RefCOCO+ val	RefCOCOg val	Avg mIoU
CARIS*	76.77	69.33	68.87	71.8
MagNet	77.43	70.10	68.53	72.1
AMLRIS	77.89	71.33	69.24	72.9

oIoU 指标：RefCOCO val 75.45(+0.80 vs CARIS），RefCOCO+ val 67.37（+1.83)
全部 8 个 split 均 SOTA
跨数据集鲁棒性：仅在 RefCOCO+ 训练，在 7 种扰动场景下均优于 baseline
额外开销：仅增加 4.9% 显存和 17.2% 训练时间，推理无开销

亮点¶

即插即用: 不修改模型架构，不增加推理成本，可集成到 DETRIS/CARIS/ReLA 等多种 RIS 框架
理论保证: 用 JL 引理严格证明随机投影保持跨模态内积，alignment 度量有理论支撑
鲁棒性强: 遮挡/噪声等扰动场景下性能优势更明显

局限性¶

阈值 \(\tau\) 和 dropout 比例 \(\rho\) 需要手动调节，对不同数据集可能需要不同设置
随机投影的对齐度量未必能捕捉深层语义对齐（仅基于初始特征相似度）
两阶段前向带来 17.2% 训练时间增加
仅在 RefCOCO 系列评估，未验证在开放词汇/更复杂场景下的泛化性

评分¶

新颖性: ⭐⭐⭐⭐ (对齐感知遮蔽思路简洁新颖)
实验充分度: ⭐⭐⭐⭐ (全 split SOTA + 鲁棒性 + 消融)
写作质量: ⭐⭐⭐⭐ (理论推导完整清晰)
价值: ⭐⭐⭐⭐ (通用训练策略，实用价值高)