R²-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations¶
会议: ECCV 2024
arXiv: 无公开 arXiv
代码: 无
领域: 多模态VLM
关键词: 指代感知, 鲁棒性评估, 扰动基准, 多模态, LLM代理
一句话总结¶
提出 R²-Bench,一个系统评估指代感知模型(RPM)在各种扰动下鲁棒性的综合基准,包含完整的扰动分类体系、通用的扰动合成工具箱和基于 LLM 的自动化评估代理 R²-Agent,覆盖五大关键任务,揭示了当前 RPM 在噪声条件下的脆弱性。
研究背景与动机¶
领域现状:指代感知(Referring Perception)旨在通过多模态指代引导(如文本描述、点击指示等)定位视觉目标,是连接人类指令与智能系统感知环境的关键技术。该领域已在 referring expression comprehension(REC)、referring image segmentation(RIS)等多个任务上取得显著进展。
现有痛点:尽管模型在标准基准上表现优异,但它们在面对实际部署中不可避免的扰动因素(如图像噪声、遮挡、文本拼写错误、模态缺失等)时的鲁棒性却缺乏系统评估。现实场景中的传感器噪声、光照变化、用户输入错误等都可能严重影响模型性能。
核心矛盾:指代感知涉及多模态输入,扰动可能来自视觉模态、语言模态或两者的交叉,其复杂性远超单模态鲁棒性评估。缺乏统一的扰动分类体系和评估工具,使得不同研究之间难以公平比较。
本文目标 (1) 建立指代感知领域的扰动分类体系;(2) 开发通用的扰动合成与评估工具箱;(3) 构建覆盖多任务的鲁棒性基准 R²-Bench;(4) 提供基于 LLM 的自动化评估代理简化评测流程。
切入角度:作者从指代感知任务的多模态特性出发,系统地分析了可能影响模型的扰动类型,从一般性扰动(图像噪声等)到特异性扰动(指代歧义等),建立了层次化的扰动分类体系。
核心 idea:构建一个包含全面扰动分类、通用工具箱和 LLM 代理的综合基准,系统评估指代感知模型在各种噪声条件下的鲁棒性。
方法详解¶
整体框架¶
R²-Bench 由三部分组成:(1) 扰动分类体系——将影响 RPM 的扰动分为一般性上下文扰动和指代特异性扰动两大类;(2) 扰动合成与评估工具箱——提供模块化的扰动生成、组合和效果评估功能;(3) R²-Agent——基于 LLM 的自动化代理,通过自然语言指令简化模型评估流程。基准覆盖五大关键指代感知任务。
关键设计¶
-
层次化扰动分类体系(Perturbation Taxonomy):
- 功能:为指代感知领域提供系统的扰动分类框架
- 核心思路:将扰动分为两大类:(a) 一般性上下文扰动,包括视觉扰动(高斯噪声、运动模糊、亮度变化、遮挡等)和文本扰动(拼写错误、同义替换、语序变化等);(b) 指代特异性扰动,包括空间关系歧义、属性混淆、目标数量变化等。每类扰动定义多个严重程度级别以支持精细化评估
- 设计动机:现有鲁棒性研究通常只关注单模态扰动,忽略了指代感知特有的跨模态扰动,层次化分类体系确保评估的全面性
-
通用扰动合成与评估工具箱(Versatile Toolbox):
- 功能:支持扰动的灵活合成、组合和自动化评测
- 核心思路:工具箱采用模块化设计,每种扰动类型封装为独立的变换模块,支持单一扰动和复合扰动的生成。提供统一的 API 接口,可以方便地组合不同模态、不同类型的扰动。评估模块支持多种指标(accuracy、IoU、precision/recall 等),并自动生成对比报告
- 设计动机:统一的工具箱降低了鲁棒性评估的门槛,使得研究者可以快速复现和扩展实验,促进公平比较
-
R²-Agent: 基于 LLM 的自动化评估代理:
- 功能:通过自然语言指令简化和自动化模型鲁棒性评估
- 核心思路:R²-Agent 接收用户的自然语言评估需求(如"在高斯噪声下评估 CLIP-based REC 模型"),自动解析意图、选择合适的扰动配置、执行评估流程并生成结构化报告。底层 LLM 理解扰动分类体系并协调工具箱中的各个模块
- 设计动机:手动配置扰动参数和评估流程既繁琐又容易出错,LLM 代理使非专业用户也能进行系统的鲁棒性评估
损失函数 / 训练策略¶
R²-Bench 本身是评估基准而非训练方法,不涉及特定损失函数。基准覆盖的五大任务为:Referring Expression Comprehension (REC)、Referring Image Segmentation (RIS)、Referring Video Object Segmentation (RVOS)、Phrase Grounding 和 Referring 3D Object Detection。
实验关键数据¶
主实验¶
| 任务 | 扰动类型 | 模型类别 | Clean性能 | 扰动后性能 | 下降比例 |
|---|---|---|---|---|---|
| REC | 视觉噪声 | 专用模型 | ~85% | ~60-70% | 15-25% |
| REC | 文本扰动 | 专用模型 | ~85% | ~55-65% | 20-30% |
| RIS | 视觉噪声 | 通用模型 | ~70 mIoU | ~45-55 mIoU | 15-25 mIoU |
| RIS | 复合扰动 | 通用模型 | ~70 mIoU | ~35-45 mIoU | 25-35 mIoU |
| 跨模态 | 组合扰动 | 大模型 | 基线水平 | 显著下降 | 最大降幅 |
消融实验¶
| 扰动维度 | 影响程度 | 说明 |
|---|---|---|
| 仅视觉扰动 | 中等 | 模型对图像噪声有一定容忍度 |
| 仅文本扰动 | 较大 | 文本错误对指代消歧影响显著 |
| 指代特异性扰动 | 最大 | 空间关系和属性歧义最具挑战 |
| 复合扰动 | 极大 | 组合多模态扰动导致性能剧烈下降 |
关键发现¶
- 当前 RPM 对文本扰动的敏感性普遍高于视觉扰动,尤其是拼写错误和同义替换
- 指代特异性扰动(如空间关系歧义)比一般性扰动造成的性能下降更严重
- 复合扰动的影响远大于单一扰动的简单叠加,表明模型缺乏联合鲁棒性
- 大型通用模型(如基于 CLIP 的模型)虽然在 clean 数据上表现好,但鲁棒性未必优于专用小模型
- R²-Agent 能有效降低评估的人工成本,且评估结果与手动配置一致
亮点与洞察¶
- 系统化的扰动分类体系:首次为指代感知建立层次化扰动分类,区分一般性与特异性扰动,这个分类框架可迁移到其他多模态任务(如VQA、image captioning)的鲁棒性评估
- LLM 代理自动化评测:R²-Agent 将扰动配置和评估执行自动化,展示了 LLM 在自动化 ML 评估流水线中的潜力,这一思路可扩展到其他基准测试的自动化
- 跨模态组合扰动分析:揭示了单模态鲁棒性评估的局限——模型可能对单一模态扰动鲁棒但在组合扰动下崩溃,这对实际部署有重要警示
局限与展望¶
- 扰动类型虽然全面但仍以合成扰动为主,与真实场景的分布差异未充分分析
- R²-Agent 依赖 LLM 的理解能力,对复杂或模糊的评估需求可能产生误解
- 基准主要评估静态鲁棒性,未考虑时间序列中扰动的累积效应
- 缺少对鲁棒性提升方法的系统探索(如对抗训练、数据增强策略的效果)
- 五大任务的扰动严重度校准可能不一致,跨任务比较需谨慎解读
相关工作与启发¶
- vs RobustaAI benchmarks: 传统鲁棒性基准(如ImageNet-C)只关注图像分类的视觉扰动,R²-Bench 扩展到多模态指代感知,覆盖了文本和跨模态扰动
- vs POPE/MMBench: 这些多模态大模型基准测评能力但不系统评估鲁棒性,R²-Bench 专注于扰动条件下的性能退化分析
- 该基准对安全关键场景(自动驾驶、医疗辅助)中的 RPM 部署具有重要参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统评估指代感知鲁棒性的基准,扰动分类体系设计合理
- 实验充分度: ⭐⭐⭐⭐ 覆盖五大任务和多种扰动类型,分析维度丰富
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机充分,图表规范
- 价值: ⭐⭐⭐⭐ 填补了指代感知鲁棒性评估的空白,R²-Agent 有实用价值
相关论文¶
- [ICCV 2025] ODP-Bench: Benchmarking Out-of-Distribution Performance Prediction
- [NeurIPS 2025] LTD-Bench: Evaluating Large Language Models by Letting Them Draw
- [ICCV 2025] On the Robustness Tradeoff in Fine-Tuning
- [ACL 2026] Modeling Multi-Dimensional Cognitive States in Large Language Models under Cognitive Crowding
- [ACL 2025] CodeMEnv: Benchmarking Large Language Models on Code Migration