Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks¶

会议: ICLR 2026
arXiv: 2602.23898
代码: https://ref-adv.github.io/
作者: Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu
领域: 多模态VLM — 指称表达理解、视觉推理
关键词: Referring Expression Comprehension, Visual Grounding, Hard Distractors, Benchmark, Shortcut Suppression

一句话总结¶

提出 Ref-Adv 基准数据集，通过 硬干扰物配对 + LLM 辅助最小充分表达式生成 + 三人一致性人工验证 的流水线，构建了一个消除"定位捷径"的现代 REC 基准，在该基准上 13 个当代 MLLM（包括 GPT-4o、Gemini 2.5、Qwen2.5-VL-72B 等）的准确率从 RefCOCO(+/g) 上的 90%+ 大幅下降至 50-68%，系统暴露了模型在复杂视觉推理和真实定位能力上的严重不足。

研究背景与动机¶

领域现状：指称表达理解（REC）是将自然语言描述定位到图像特定区域的经典任务。RefCOCO、RefCOCO+、RefCOCOg 是该领域的标准基准，当前最强 MLLM（Qwen2.5-VL-72B、InternVL-3 等）在这些数据集上已达到 90%+ 的准确率，趋近饱和。

现有痛点：经典 REC 基准存在三个系统性缺陷——① 表达式极短（RefCOCO/RefCOCO+ 平均仅 3.6 个词），语言理解需求极低；② 干扰物稀少（RefCOCO(+/g) 大部分图像仅有 1 个同类目标），分类即可定位；③ 存在"定位捷径"（grounding shortcut），大量冗余描述符使模型只需匹配部分描述即可成功定位目标，无需理解完整表达式。

核心矛盾：高分 ≠ 真正的视觉推理能力。实验表明，即使将表达式替换为固定的 "the one"、打乱词序为 bag-of-words、或删除一个描述符，模型在 RefCOCO(+/g) 上的性能下降幅度远小于预期。这意味着基准分数严重高估了模型的真实推理和定位能力。

本文目标 构建一个满足以下条件的现代 REC 基准：① 每个表达式都需要多步文本推理（理解目标描述及其与干扰物的区别）；② 需要精细视觉推理（在多个高度相似的候选物体中区分目标）；③ 消除可绕过推理的捷径。

切入角度：将 REC 视为文本推理 + 视觉推理的耦合多步推理任务。通过强制引入"硬干扰物"（与目标部分匹配但不完全匹配的同类物体），并用 LLM 生成仅包含最小充分描述符的表达式，使得每个描述符都是定位所必需的，从根源上消除捷径。

核心 idea：用硬干扰物配对 + 最小充分表达式生成的数据管线，构建一个让每个描述符都对定位不可或缺的 REC 基准，从而真正评估 MLLM 的视觉推理能力。

方法详解¶

整体框架¶

Ref-Adv 并非提出新模型，而是提出一个新的数据构建流水线和基准数据集。流水线分四个阶段：输入准备 → 相似度判断（找硬干扰物对）→ 表达式生成（最小充分描述）→ 人工验证（三人一致通过）。最终产出 5,000 个高质量指称表达-目标对，其中公开发布的子集 Ref-Adv-s 包含 1,142 个案例。

关键设计¶

硬干扰物筛选（Hard Distractor Pressure）:
- 功能：确保每张图像中存在与目标高度相似但不完全匹配的干扰物，迫使模型进行精细视觉区分
- 核心思路：首先过滤出包含 ≥3 个同类实例的图像（基于 COCO 和 OpenImages v7 的 panoptic instance 标注），然后通过 GPT-4o 将候选实例分为 Group A（目标 + 硬干扰物）和 Group B（其他干扰物），要求 LLM 识别两组间的区分属性以及 Group A 内部两个实例的细微差异
- 设计动机：RefCOCO(+/g) 中 70%+ 的图像仅有 0-1 个同类干扰物，模型通过类别识别即可完成定位。强制 ≥3 个同类干扰物将任务从"分类问题"升级为"精细区分问题"
两阶段最小充分表达式生成（Minimally Sufficient Expression Generation）:
- 功能：生成既自然又仅包含定位所必需描述符的表达式，消除冗余描述带来的捷径
- 核心思路：阶段一（Similarity Judgement）：让 GPT-4o 输出区分 Group A vs Group B 的属性列表，以及区分 Group A 内部两个实例的属性列表，生成多组候选描述符。阶段二（Expression Generation）：从这些描述符的最小充分子集出发，让 LLM 组合生成自然表达式，支持两种策略——使用目标自身的正向描述符，或使用硬干扰物描述符的否定形式（引入否定推理）。论文特别强调放弃了单步直接生成方案，因为 GPT-4o 单步生成时倾向于产生过度描述（overspecified）的表达式，包含大量冗余描述符
- 设计动机：Ref-Adv 的数据统计显示平均表达式长度 11.5 词、平均干扰物 4.01 个、否定表达比例 21.25%，远高于 RefCOCO 的 3.6 词 / 3.99 干扰物 / 0.99% 否定比例，但每个描述符都是不可或缺的
三人一致性人工验证（Three-Annotator Verification Protocol）:
- 功能：过滤 LLM 生成中的幻觉和歧义，确保标注质量
- 核心思路：三位标注者独立完成两项判断——① 表达式是否正确且无歧义（先在无标签图像上自行定位，再参照 GT 反思并最终确认）；② 图像中是否确实存在硬干扰物。三人全部一致时才保留该样本。LLM 生成表达式的通过率仅 18.7%，体现了极严格的质量把控
- 设计动机：LLM 辅助标注不可避免地引入幻觉（hallucination），人工验证是确保基准公信力的必要环节

基准质量验证体系¶

论文设计了三种消融测试（ablation）来证明 Ref-Adv 的质量：

模型偏差测试（Model Bias Test）：将所有表达式替换为固定的 "the one"，观察模型能否仅凭统计偏差定位。Qwen2.5-VL-72B 在 RefCOCO 上仍达 35.1%，但在 Ref-Adv 上仅 21.4%（Δ=-13.7%），说明 Ref-Adv 受数据偏差影响更小
文本推理必要性测试（Bag-of-Words Test）：打乱表达式词序。在 Ref-Adv 上 Qwen2.5-VL-72B 下降 16.8%（58.3→41.5%），显著大于 RefCOCO 的 9.9%，证明 Ref-Adv 需要真正的文本理解
描述符删除充分性测试（Descriptor Deletion Test）：随机删除一个描述符。在 Ref-Adv 上下降 6.4%（58.3→51.9%），大于 RefCOCO 的 4.7%，说明 Ref-Adv 中的每个描述符都更加必要

实验关键数据¶

Table 1: Ref-Adv 基准统计 vs 经典 REC 基准¶

基准	图像数	实例数	平均表达式长度	平均干扰物数	否定比例	词汇量
RefCOCO	3,000	7,596	3.6	3.99	0.99%	3,525
RefCOCO+	3,000	7,578	3.6	3.96	3.36%	4,387
RefCOCOg	3,900	7,596	8.4	1.64	1.41%	5,050
Ref-Adv	2,833	5,000	11.5	4.01	21.25%	5,308

Ref-Adv 在表达式长度、词汇多样性、否定推理比例上全面超越经典基准，且干扰物密度维持在较高水平。

Table 2: 主实验结果（Ref-Adv 全集，代表性模型）¶

模型	CoT	SoM	Acc@0.5	Acc@0.75	Acc@0.9	mAcc	≥7干扰物Δ
GPT-4o	✗	✓	52.3	31.2	13.4	27.8	-0.6
GPT-4o	✓	✓	63.7	38.4	19.7	34.1	-3.2
Claude-3.5 Sonnet	✗	✓	40.8	22.1	3.8	22.4	-3.4
Gemini 2.5-Flash	✓	✗	59.4	35.1	16.3	30.6	-3.8
Gemini 2.5-Pro	✓	✗	59.1	32.6	14.2	28.3	-3.2
InternVL-3-78B	✓	✗	58.4	47.9	29.6	41.2	-3.0
Qwen2.5-VL-72B	✓	✗	58.3	47.8	29.5	41.1	-2.7
GLM-4.5V	✓	✗	56.9	46.6	28.8	40.2	-2.3
CogVLM-Grounding	✗	✗	51.5	41.2	23.4	35.0	-0.7

对比 RefCOCO(+/g) 上 90%+ 的准确率，所有模型在 Ref-Adv Acc@0.5 上均未超过 64%，最强的 GPT-4o+CoT+SoM 也仅 63.7%，暴露了巨大的推理差距。高 IoU 阈值下差距更大：Acc@0.9 最高仅 29.6%（InternVL-3-78B）。

Table 3: Ref-Adv-s 子集上模型规模与思考模式的影响（Qwen 系列）¶

模型	CoT/Thinking	Acc@0.5	≥7干扰物Acc@0.5	≥7干扰物Δ
Qwen2.5-VL-3B	✗	23.8	17.1	-6.8
Qwen2.5-VL-72B	✓	52.4	38.8	-13.6
Qwen3-VL-2B-Thinking	✓	44.4	31.0	-13.4
Qwen3-VL-8B-Thinking	✓	59.5	47.3	-12.2
Qwen3-VL-32B-Thinking	✓	65.6	52.7	-12.9
Qwen3-VL-235B-A22B-Thinking	✓	67.1	56.6	-10.5
Qwen3.5-397B-A17B	✓	68.0	56.6	-11.4

两个关键发现：① Thinking 模式显著优于同尺寸 Instruct 模式（如 Qwen3-VL-8B-Thinking 59.5 vs Instruct 47.2，+12.3）；② 即使最大模型 Qwen3.5-397B 也仅 68.0%，且高干扰物场景性能仍显著下降（-11.4）。

关键发现¶

CoT 在 Ref-Adv 上有效但在 RefCOCO 上无效：Ref-Adv 需要多步推理，CoT 帮助模型逐步排除干扰物；而 RefCOCO 定位简单，CoT 反而引入不必要的冗余和错误
干扰物数量是性能瓶颈：所有模型在 ≥7 干扰物组上性能显著低于整体，最大降幅达 -19.3%（Qwen3-VL-235B-A22B-Instruct），说明处理多个高相似候选是当前 MLLM 的核心弱点
模型常选择硬干扰物作为答案：定性分析显示模型即使使用 CoT 也经常在推理链中间因视觉感知错误或表达式误解而选中硬干扰物，而非真实目标
Acc@0.9 极低：即使定位成功（Acc@0.5），精确框回归能力仍然很差，最好模型的 Acc@0.9 也仅 ~35%

亮点与洞察¶

"捷径"问题的系统化诊断：论文首次将 REC 基准的三个系统性缺陷（短表达、少干扰物、冗余描述符）整合为一个统一的"定位捷径"框架，并通过三种消融测试（偏差 / 词序 / 描述符删除）定量验证，为后续基准设计提供了方法论模板。
两阶段生成优于单步生成：放弃让 LLM 单步直接生成表达式，改为先提取区分属性再从最小子集组合，这个设计洞察值得迁移——在任何需要 LLM 生成"精确且不冗余"文本的场景中，先分析再组合优于直接端到端生成。
否定推理的引入：21.25% 的否定表达比例（RefCOCO 仅 0.99%）测试了模型理解"不是X"的能力，这是一个被忽视但重要的推理维度。
Thinking 模式的显著优势：Qwen3-VL-2B-Thinking（44.4%）甚至优于 Qwen2.5-VL-32B-Instruct（48.0%），说明小模型 + 推理训练在需要复杂推理的任务上可以超越大模型 + 普通微调。

局限与展望¶

数据来源受限：仅使用 COCO 和 OpenImages v7 的图像，场景多样性有限。未涉及更复杂的真实场景（如密集城市街景、工业检测场景），泛化性有待验证。
对 SoM 的依赖影响公平性：GPT-4o 和 Claude 使用 Set-of-Marks（SoM）+ Semantic-SAM 进行评估，而开源模型直接输出坐标。SoM 将定位问题转化为选择问题，两种评估范式不完全可比，可能高估了使用 SoM 模型的推理能力。
LLM 生成表达式的天花板：18.7% 的保留率意味着 81.3% 的 LLM 生成被丢弃，且最终保留样本可能偏向 LLM 能正确理解的简单场景，引入了潜在的选择偏差。
缺少分割级别评估：Ref-Adv 仅评估框级定位（bounding box IoU），未扩展到 referring expression segmentation（RES），而像素级分割对"精确理解"的要求更高。
未覆盖视频或 3D 场景：REC 在视频理解和 3D 场景定位中同样重要，仅静态图像的评估不足以全面衡量模型推理能力。

评分¶

新颖性: ⭐⭐⭐⭐ 基准构建方法论（硬干扰物 + 最小充分表达式 + 三重验证）有系统性创新，但核心 idea 属于对已知问题的工程化解决
实验充分度: ⭐⭐⭐⭐⭐ 13 个模型、三种消融测试、多 IoU 阈值、干扰物分组分析、CoT 对比、规模缩放实验，覆盖极其全面
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，消融测试设计巧妙，但论文结构偏长，部分分析可更精炼
价值: ⭐⭐⭐⭐ 对 MLLM 社区有重要参考价值，揭示了 RefCOCO 饱和分数的虚假繁荣，推动更真实的评估标准