R²-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations¶

会议: ECCV 2024
arXiv: 无公开 arXiv
代码: 无
领域: 多模态VLM
关键词: 指代感知, 鲁棒性评估, 扰动基准, 多模态, LLM代理

一句话总结¶

提出 R²-Bench，一个系统评估指代感知模型（RPM）在各种扰动下鲁棒性的综合基准，包含完整的扰动分类体系、通用的扰动合成工具箱和基于 LLM 的自动化评估代理 R²-Agent，覆盖五大关键任务，揭示了当前 RPM 在噪声条件下的脆弱性。

研究背景与动机¶

领域现状：指代感知（Referring Perception）旨在通过多模态指代引导（如文本描述、点击指示等）定位视觉目标，是连接人类指令与智能系统感知环境的关键技术。该领域已在 referring expression comprehension（REC）、referring image segmentation（RIS）等多个任务上取得显著进展。

现有痛点：尽管模型在标准基准上表现优异，但它们在面对实际部署中不可避免的扰动因素（如图像噪声、遮挡、文本拼写错误、模态缺失等）时的鲁棒性却缺乏系统评估。现实场景中的传感器噪声、光照变化、用户输入错误等都可能严重影响模型性能。

核心矛盾：指代感知涉及多模态输入，扰动可能来自视觉模态、语言模态或两者的交叉，其复杂性远超单模态鲁棒性评估。缺乏统一的扰动分类体系和评估工具，使得不同研究之间难以公平比较。

本文目标 (1) 建立指代感知领域的扰动分类体系；(2) 开发通用的扰动合成与评估工具箱；(3) 构建覆盖多任务的鲁棒性基准 R²-Bench；(4) 提供基于 LLM 的自动化评估代理简化评测流程。

切入角度：作者从指代感知任务的多模态特性出发，系统地分析了可能影响模型的扰动类型，从一般性扰动（图像噪声等）到特异性扰动（指代歧义等），建立了层次化的扰动分类体系。

核心 idea：构建一个包含全面扰动分类、通用工具箱和 LLM 代理的综合基准，系统评估指代感知模型在各种噪声条件下的鲁棒性。

方法详解¶

整体框架¶

R²-Bench 由三部分组成：(1) 扰动分类体系——将影响 RPM 的扰动分为一般性上下文扰动和指代特异性扰动两大类；(2) 扰动合成与评估工具箱——提供模块化的扰动生成、组合和效果评估功能；(3) R²-Agent——基于 LLM 的自动化代理，通过自然语言指令简化模型评估流程。基准覆盖五大关键指代感知任务。

关键设计¶

层次化扰动分类体系（Perturbation Taxonomy）:
- 功能：为指代感知领域提供系统的扰动分类框架
- 核心思路：将扰动分为两大类：(a) 一般性上下文扰动，包括视觉扰动（高斯噪声、运动模糊、亮度变化、遮挡等）和文本扰动（拼写错误、同义替换、语序变化等）；(b) 指代特异性扰动，包括空间关系歧义、属性混淆、目标数量变化等。每类扰动定义多个严重程度级别以支持精细化评估
- 设计动机：现有鲁棒性研究通常只关注单模态扰动，忽略了指代感知特有的跨模态扰动，层次化分类体系确保评估的全面性
通用扰动合成与评估工具箱（Versatile Toolbox）:
- 功能：支持扰动的灵活合成、组合和自动化评测
- 核心思路：工具箱采用模块化设计，每种扰动类型封装为独立的变换模块，支持单一扰动和复合扰动的生成。提供统一的 API 接口，可以方便地组合不同模态、不同类型的扰动。评估模块支持多种指标（accuracy、IoU、precision/recall 等），并自动生成对比报告
- 设计动机：统一的工具箱降低了鲁棒性评估的门槛，使得研究者可以快速复现和扩展实验，促进公平比较
R²-Agent: 基于 LLM 的自动化评估代理:
- 功能：通过自然语言指令简化和自动化模型鲁棒性评估
- 核心思路：R²-Agent 接收用户的自然语言评估需求（如"在高斯噪声下评估 CLIP-based REC 模型"），自动解析意图、选择合适的扰动配置、执行评估流程并生成结构化报告。底层 LLM 理解扰动分类体系并协调工具箱中的各个模块
- 设计动机：手动配置扰动参数和评估流程既繁琐又容易出错，LLM 代理使非专业用户也能进行系统的鲁棒性评估

损失函数 / 训练策略¶

R²-Bench 本身是评估基准而非训练方法，不涉及特定损失函数。基准覆盖的五大任务为：Referring Expression Comprehension (REC)、Referring Image Segmentation (RIS)、Referring Video Object Segmentation (RVOS)、Phrase Grounding 和 Referring 3D Object Detection。

实验关键数据¶

主实验¶

任务	扰动类型	模型类别	Clean性能	扰动后性能	下降比例
REC	视觉噪声	专用模型	~85%	~60-70%	15-25%
REC	文本扰动	专用模型	~85%	~55-65%	20-30%
RIS	视觉噪声	通用模型	~70 mIoU	~45-55 mIoU	15-25 mIoU
RIS	复合扰动	通用模型	~70 mIoU	~35-45 mIoU	25-35 mIoU
跨模态	组合扰动	大模型	基线水平	显著下降	最大降幅

消融实验¶

扰动维度	影响程度	说明
仅视觉扰动	中等	模型对图像噪声有一定容忍度
仅文本扰动	较大	文本错误对指代消歧影响显著
指代特异性扰动	最大	空间关系和属性歧义最具挑战
复合扰动	极大	组合多模态扰动导致性能剧烈下降

关键发现¶

当前 RPM 对文本扰动的敏感性普遍高于视觉扰动，尤其是拼写错误和同义替换
指代特异性扰动（如空间关系歧义）比一般性扰动造成的性能下降更严重
复合扰动的影响远大于单一扰动的简单叠加，表明模型缺乏联合鲁棒性
大型通用模型（如基于 CLIP 的模型）虽然在 clean 数据上表现好，但鲁棒性未必优于专用小模型
R²-Agent 能有效降低评估的人工成本，且评估结果与手动配置一致

亮点与洞察¶

系统化的扰动分类体系：首次为指代感知建立层次化扰动分类，区分一般性与特异性扰动，这个分类框架可迁移到其他多模态任务（如VQA、image captioning）的鲁棒性评估
LLM 代理自动化评测：R²-Agent 将扰动配置和评估执行自动化，展示了 LLM 在自动化 ML 评估流水线中的潜力，这一思路可扩展到其他基准测试的自动化
跨模态组合扰动分析：揭示了单模态鲁棒性评估的局限——模型可能对单一模态扰动鲁棒但在组合扰动下崩溃，这对实际部署有重要警示

局限与展望¶

扰动类型虽然全面但仍以合成扰动为主，与真实场景的分布差异未充分分析
R²-Agent 依赖 LLM 的理解能力，对复杂或模糊的评估需求可能产生误解
基准主要评估静态鲁棒性，未考虑时间序列中扰动的累积效应
缺少对鲁棒性提升方法的系统探索（如对抗训练、数据增强策略的效果）
五大任务的扰动严重度校准可能不一致，跨任务比较需谨慎解读

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统评估指代感知鲁棒性的基准，扰动分类体系设计合理
实验充分度: ⭐⭐⭐⭐ 覆盖五大任务和多种扰动类型，分析维度丰富
写作质量: ⭐⭐⭐⭐ 结构清晰，动机充分，图表规范
价值: ⭐⭐⭐⭐ 填补了指代感知鲁棒性评估的空白，R²-Agent 有实用价值