VIRTUE: Visual-Interactive Text-Image Universal Embedder¶

会议: ICLR 2026
arXiv: 2510.00523
代码: GitHub
领域: multimodal embedding / segmentation
关键词: visual prompt, embedding model, SAM2, VLM, visual-interactive, retrieval, segmentation

一句话总结¶

提出 VIRTUE，将分割模型(SAM2)与 VLM 结合构建视觉交互式通用嵌入器，支持用户通过点/框/掩码指定兴趣区域产生实体级+全局级联合嵌入，并构建百万级 SCaR 基准评估视觉交互检索能力，在 36 个 MMEB 任务和 5 个 SCaR 任务上均达到 SOTA。

背景与动机¶

现有 VLM 嵌入模型仅支持文本指令交互，缺乏视觉交互能力(点/框/掩码)
视觉提示在生成模型中已广泛使用，但嵌入模型尚未探索
裁剪 ROI 会丢失全局场景上下文（如"桌上的沙拉叉"裁剪后失去"桌"信息）
同一图像中不同实体需要不同嵌入，但整体表示无法区分
缺乏评估视觉交互嵌入能力的基准
生成模型的视觉提示范式启发了嵌入模型的类似需求

方法详解¶

架构: SAM2 分割模型 + VLM (Qwen2-VL) + 分割-语言连接器

三路嵌入: - 分割嵌入 \(H_s\): SAM2 的 prompt encoder 处理视觉提示 → mask decoder 生成 64×64 特征图 → Conv2D 压缩 → MLP 投影到 LLM 维度 - 视觉嵌入 \(H_v\): VLM 的 vision encoder 提取全局上下文 - 文本嵌入 \(H_t\): LLM 的文本嵌入层

无视觉提示时: 均匀采样 \(N\) 个点作为替代输入 SAM2，提取多实体级特征

训练: 拼接 \([H_s, H_v, H_t]\) 送入 LLM，取最后 token 的 hidden state 做对比学习(InfoNCE) - SAM2 和 vision encoder 冻结，仅训练 LoRA + 分割-语言连接器

SCaR Benchmark: - 1M 样本的视觉交互图-文检索基准 - 来自 RefCOCO+/RefCOCOg/VisualGenome/COCO-Stuff/ADE20K - 每个样本: 图像 + 框 → 检索描述实体+场景的标题 - 负样本由 GPT-4V 通过元素替换生成（对象/关系/场景三种替换策略）

实验关键数据¶

MMEB Overall (36 tasks): | 模型 | IND | OOD | Overall | |------|-----|-----|---------| | VLM2Vec-7B | 71.4 | 58.1 | 65.5 | | UniME-7B | 68.4 | 57.9 | 66.6 | | VIRTUE-7B | 74.4 | 61.4 | 68.6 (+2.0) | | VIRTUE-2B | 69.7 | 58.8 | 64.8 (+5.1 vs VLM2Vec-2B) |

SCaR (5 visual-interactive tasks): +15.2%–20.3% 提升 - 即使在 MMEB 通用任务上也有显著提升(3.1%–8.5%) - 分割嵌入在非交互场景下(均匀采样点)也提供实体级信息增益

亮点¶

新交互范式: 首次将视觉提示(点/框/掩码)引入嵌入模型
SAM2 作为结构化先验: 比裁剪更精确地捕捉实体语义
兼顾通用性: 无视觉提示时自动采样点，在传统任务上也有提升
SCaR 基准: 百万级数据 + GPT-4V 生成高质量干扰项 + 多阶段过滤

局限性¶

SAM2 增加推理计算开销（额外的分割前向传播）
分割-语言连接器需要从头训练，增加了训练复杂度
SCaR 仅评估 I2T 检索，未覆盖 I2I 视觉交互场景
均匀采样点的自动策略可能不是最优的实体发现方式

评分¶

新颖性: ⭐⭐⭐⭐⭐ (视觉交互嵌入 = 全新问题定义)
实验充分度: ⭐⭐⭐⭐⭐ (36+5 任务 + 大量消融 + 新基准)
写作质量: ⭐⭐⭐⭐ (清晰系统)
价值: ⭐⭐⭐⭐⭐ (开辟视觉交互嵌入新方向 + 高质量基准)