跳转至

R²-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations

会议: ECCV 2024
arXiv: 无公开 arXiv
代码: 无
领域: 多模态VLM
关键词: 指代感知, 鲁棒性评估, 扰动基准, 多模态, LLM代理

一句话总结

提出 R²-Bench,一个系统评估指代感知模型(RPM)在各种扰动下鲁棒性的综合基准,包含完整的扰动分类体系、通用的扰动合成工具箱和基于 LLM 的自动化评估代理 R²-Agent,覆盖五大关键任务,揭示了当前 RPM 在噪声条件下的脆弱性。

研究背景与动机

领域现状:指代感知(Referring Perception)旨在通过多模态指代引导(如文本描述、点击指示等)定位视觉目标,是连接人类指令与智能系统感知环境的关键技术。该领域已在 referring expression comprehension(REC)、referring image segmentation(RIS)等多个任务上取得显著进展。

现有痛点:尽管模型在标准基准上表现优异,但它们在面对实际部署中不可避免的扰动因素(如图像噪声、遮挡、文本拼写错误、模态缺失等)时的鲁棒性却缺乏系统评估。现实场景中的传感器噪声、光照变化、用户输入错误等都可能严重影响模型性能。

核心矛盾:指代感知涉及多模态输入,扰动可能来自视觉模态、语言模态或两者的交叉,其复杂性远超单模态鲁棒性评估。缺乏统一的扰动分类体系和评估工具,使得不同研究之间难以公平比较。

本文目标 (1) 建立指代感知领域的扰动分类体系;(2) 开发通用的扰动合成与评估工具箱;(3) 构建覆盖多任务的鲁棒性基准 R²-Bench;(4) 提供基于 LLM 的自动化评估代理简化评测流程。

切入角度:作者从指代感知任务的多模态特性出发,系统地分析了可能影响模型的扰动类型,从一般性扰动(图像噪声等)到特异性扰动(指代歧义等),建立了层次化的扰动分类体系。

核心 idea:构建一个包含全面扰动分类、通用工具箱和 LLM 代理的综合基准,系统评估指代感知模型在各种噪声条件下的鲁棒性。

方法详解

整体框架

R²-Bench 由三部分组成:(1) 扰动分类体系——将影响 RPM 的扰动分为一般性上下文扰动和指代特异性扰动两大类;(2) 扰动合成与评估工具箱——提供模块化的扰动生成、组合和效果评估功能;(3) R²-Agent——基于 LLM 的自动化代理,通过自然语言指令简化模型评估流程。基准覆盖五大关键指代感知任务。

关键设计

  1. 层次化扰动分类体系(Perturbation Taxonomy):

    • 功能:为指代感知领域提供系统的扰动分类框架
    • 核心思路:将扰动分为两大类:(a) 一般性上下文扰动,包括视觉扰动(高斯噪声、运动模糊、亮度变化、遮挡等)和文本扰动(拼写错误、同义替换、语序变化等);(b) 指代特异性扰动,包括空间关系歧义、属性混淆、目标数量变化等。每类扰动定义多个严重程度级别以支持精细化评估
    • 设计动机:现有鲁棒性研究通常只关注单模态扰动,忽略了指代感知特有的跨模态扰动,层次化分类体系确保评估的全面性
  2. 通用扰动合成与评估工具箱(Versatile Toolbox):

    • 功能:支持扰动的灵活合成、组合和自动化评测
    • 核心思路:工具箱采用模块化设计,每种扰动类型封装为独立的变换模块,支持单一扰动和复合扰动的生成。提供统一的 API 接口,可以方便地组合不同模态、不同类型的扰动。评估模块支持多种指标(accuracy、IoU、precision/recall 等),并自动生成对比报告
    • 设计动机:统一的工具箱降低了鲁棒性评估的门槛,使得研究者可以快速复现和扩展实验,促进公平比较
  3. R²-Agent: 基于 LLM 的自动化评估代理:

    • 功能:通过自然语言指令简化和自动化模型鲁棒性评估
    • 核心思路:R²-Agent 接收用户的自然语言评估需求(如"在高斯噪声下评估 CLIP-based REC 模型"),自动解析意图、选择合适的扰动配置、执行评估流程并生成结构化报告。底层 LLM 理解扰动分类体系并协调工具箱中的各个模块
    • 设计动机:手动配置扰动参数和评估流程既繁琐又容易出错,LLM 代理使非专业用户也能进行系统的鲁棒性评估

损失函数 / 训练策略

R²-Bench 本身是评估基准而非训练方法,不涉及特定损失函数。基准覆盖的五大任务为:Referring Expression Comprehension (REC)、Referring Image Segmentation (RIS)、Referring Video Object Segmentation (RVOS)、Phrase Grounding 和 Referring 3D Object Detection。

实验关键数据

主实验

任务 扰动类型 模型类别 Clean性能 扰动后性能 下降比例
REC 视觉噪声 专用模型 ~85% ~60-70% 15-25%
REC 文本扰动 专用模型 ~85% ~55-65% 20-30%
RIS 视觉噪声 通用模型 ~70 mIoU ~45-55 mIoU 15-25 mIoU
RIS 复合扰动 通用模型 ~70 mIoU ~35-45 mIoU 25-35 mIoU
跨模态 组合扰动 大模型 基线水平 显著下降 最大降幅

消融实验

扰动维度 影响程度 说明
仅视觉扰动 中等 模型对图像噪声有一定容忍度
仅文本扰动 较大 文本错误对指代消歧影响显著
指代特异性扰动 最大 空间关系和属性歧义最具挑战
复合扰动 极大 组合多模态扰动导致性能剧烈下降

关键发现

  • 当前 RPM 对文本扰动的敏感性普遍高于视觉扰动,尤其是拼写错误和同义替换
  • 指代特异性扰动(如空间关系歧义)比一般性扰动造成的性能下降更严重
  • 复合扰动的影响远大于单一扰动的简单叠加,表明模型缺乏联合鲁棒性
  • 大型通用模型(如基于 CLIP 的模型)虽然在 clean 数据上表现好,但鲁棒性未必优于专用小模型
  • R²-Agent 能有效降低评估的人工成本,且评估结果与手动配置一致

亮点与洞察

  • 系统化的扰动分类体系:首次为指代感知建立层次化扰动分类,区分一般性与特异性扰动,这个分类框架可迁移到其他多模态任务(如VQA、image captioning)的鲁棒性评估
  • LLM 代理自动化评测:R²-Agent 将扰动配置和评估执行自动化,展示了 LLM 在自动化 ML 评估流水线中的潜力,这一思路可扩展到其他基准测试的自动化
  • 跨模态组合扰动分析:揭示了单模态鲁棒性评估的局限——模型可能对单一模态扰动鲁棒但在组合扰动下崩溃,这对实际部署有重要警示

局限与展望

  • 扰动类型虽然全面但仍以合成扰动为主,与真实场景的分布差异未充分分析
  • R²-Agent 依赖 LLM 的理解能力,对复杂或模糊的评估需求可能产生误解
  • 基准主要评估静态鲁棒性,未考虑时间序列中扰动的累积效应
  • 缺少对鲁棒性提升方法的系统探索(如对抗训练、数据增强策略的效果)
  • 五大任务的扰动严重度校准可能不一致,跨任务比较需谨慎解读

相关工作与启发

  • vs RobustaAI benchmarks: 传统鲁棒性基准(如ImageNet-C)只关注图像分类的视觉扰动,R²-Bench 扩展到多模态指代感知,覆盖了文本和跨模态扰动
  • vs POPE/MMBench: 这些多模态大模型基准测评能力但不系统评估鲁棒性,R²-Bench 专注于扰动条件下的性能退化分析
  • 该基准对安全关键场景(自动驾驶、医疗辅助)中的 RPM 部署具有重要参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统评估指代感知鲁棒性的基准,扰动分类体系设计合理
  • 实验充分度: ⭐⭐⭐⭐ 覆盖五大任务和多种扰动类型,分析维度丰富
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机充分,图表规范
  • 价值: ⭐⭐⭐⭐ 填补了指代感知鲁棒性评估的空白,R²-Agent 有实用价值

相关论文