MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding¶

会议: CVPR2026 arXiv: 2512.02906 代码: yf0412/MRD 领域: 目标检测 / 高分辨率图像理解 关键词: 高分辨率图像理解, 多模态大模型, 检索增强感知, 开放词汇检测, 多分辨率融合, training-free

一句话总结¶

提出 MRD，一个 training-free 的多分辨率检索-检测融合框架，通过多分辨率语义融合缓解目标碎片化，结合开放词汇检测器抑制背景干扰，显著提升 MLLM 对高分辨率图像的理解能力。

MLLM 高分辨率瓶颈：主流多模态大模型受限于固定低分辨率输入，无法有效处理高分辨率图像中的小目标、精细纹理和文字等细节信息
训练方法成本高：基于 SFT/RL 的 localize-and-zoom-in 方法存在训练成本大、收敛周期长、跨架构迁移差等问题，限制了实际部署
目标碎片化问题（FRAG）：基于检索的方法使用固定网格切分高分辨率图像，大目标被切割到多个 patch 中，导致嵌入语义偏差和不完整检索，影响 65.2% 的失败样本
背景干扰问题（BG）：复杂背景区域与 query 产生虚假高相似度，引入假阳性 patch 误导后续推理，影响 54.3% 的失败样本
尺度敏感性：crop 分辨率是难以调优的超参数——过大引入背景噪声稀释目标语义，过小加剧碎片化
多目标场景缺陷：现有 top-down 方法在初始粗粒度搜索阶段容易遗漏非主要目标，在多目标任务上表现不佳

MRD 是一个 training-free 的统一多尺度框架，包含两个核心模块：

两个模块的输出通过线性融合生成最终相似度图，指导后续检索搜索过程。

将高分辨率图像按两种比例分辨率切分：低分辨率 crop 集 \(P\)（分辨率 \(l\)）和高分辨率 crop 集 \(\hat{P}\)（分辨率 \(\hat{l}=k \cdot l\)），两者存在空间对应关系（每个 HR crop 对应 \(k^2\) 个 LR crop）
使用 VisRAG 的视觉-语言模型分别计算 query 与两种分辨率 crop 的余弦相似度
将 HR 相似度分数投影到 LR 空间，通过几何均值融合：\(s_t^m = \sqrt{\tilde{s}_t \cdot s_t}\)
融合结果重塑为 2D 语义相似度图，跨分辨率一致性融合可校正目标碎片化导致的语义偏差

\[s^f(i,j) = (1-w) \cdot s^m(i,j) + w \cdot c^g(i,j)\]

其中 \(w\) 为平衡权重。语义相似度图提供细粒度匹配，检测置信度图提供显式空间定位和背景抑制，两者互补融合。

方法	Attribute	Spatial	Overall
LLaVA-v1.5-7B（baseline）	43.5	56.6	48.7
LLaVA-v1.5-7B-RAP	90.4	96.1	91.1
LLaVA-v1.5-7B-MRD	97.4	96.1	95.6
LLaVA-ov-0.5B-RAP	80.0	84.2	83.6
LLaVA-ov-0.5B-MRD	89.6	85.6	88.9

模块组合	Overall	BG 错误率	FRAG 错误率
RAP（baseline）	83.6	10.7%	8.9%
OVD only	85.3 (+1.7)	5.7% (-46.7%)	6.2% (-30.3%)
RAP + Multi-Res	85.8 (+2.2)	6.7% (-37.4%)	5.3% (-40.4%)
RAP + OVD	86.7 (+3.1)	4.9% (-54.2%)	5.8% (-34.8%)
MRD (All)	88.9 (+5.3)	4.0% (-62.6%)	4.4% (-50.6%)

两个模块互补：Multi-Res 主要缓解碎片化（FRAG ↓40.4%），OVD 主要抑制背景（BG ↓54.2%），完整 MRD 同时大幅降低两类错误。

方法	搜索时间	总时间	最大显存
RAP (v1.5-7B)	52.8s	63.4s	21.2 GB
MRD (v1.5-7B)	15.2s (-71.2%)	53.4s (-26.2%)	23.4 GB (+10.4%)

MRD 虽增加 RAG 和检测开销，但因更精准的定位使搜索步数大幅减少，总耗时反而降低 26.2%。

方法	类型	是否需训练	多目标	碎片化处理	背景抑制
ZoomEye	localize-zoom	✗	弱	✗	✗
RAP	检索增强	✗	中	✗	✗
SFT 方法	localize-zoom	✓	中	✗	部分
MRD	检索-检测融合	✗	强	✓	✓

MRD 是首个在检索增强感知框架中联合建模局部语义完整性与全局空间定位的方法，在 training-free 条件下超越所有训练方法。