Region-based Cluster Discrimination for Visual Representation Learning¶

会议: ICCV 2025
arXiv: 2507.20025
代码: GitHub
领域: segmentation
关键词: 区域表示学习, 聚类判别, OCR感知, 视觉编码器, 多模态大语言模型

一句话总结¶

提出 RICE（Region-Aware Cluster Discrimination），通过构建十亿级区域数据集、设计 Region Transformer 层和统一区域聚类判别损失，联合优化目标感知和 OCR 能力，显著提升视觉编码器在分割、检测和 MLLM 多任务上的表现。

研究背景与动机¶

CLIP、SigLIP 等视觉-语言对比模型通过大规模图像-文本对齐学习了强大的全局视觉表示。然而，这些模型在密集预测任务（分割、定位、OCR）上表现受限，原因是：

实例判别的语义不足：正负样本对的划分忽略了语义相似性，来自不同实例但语义相近的样本被视为负对

OCR 对高层语义的干扰：视觉-语言对比学习中包含 OCR pair 时，视觉编码器倾向于关注文本识别而非物体语义

全局表示对局部建模的局限：现有聚类判别方法（如 UNICOM、MLCD）为每张图像分配一个或多个伪标签，无法学习局部区域级表示

现有区域级方法如 RegionCLIP 和 CLIM 依赖区域文本描述，扩展性受限。核心动机：用聚类中心替代文本描述作为区域监督信号，实现大规模可扩展的区域级表示学习。

方法详解¶

整体框架¶

RICE 采用 ViT 架构，在标准 Transformer 层之后接入 Region Transformer 层，单次前向传播同时提取全局语义和区域级语义。训练监督来自两个分支：

Object Region Loss：基于聚类中心的单标签分类
OCR Region Loss：基于 token 嵌入的多标签分类

关键设计一：区域数据构建¶

目标区域数据：从 LAION-2B、COYO-700M、SAM-1B 中采样，对 LAION 和 COYO 使用 SAM 生成精细掩码区域，保留最短边 ≥128px 的候选框，获得 4 亿图像、20 亿候选区域。使用 CLIP 提取区域特征后，通过 k-means 聚类为 100 万个语义中心：

\[\mathbf{y}_{i,j}^{object} = \arg\min_{k \in [1,K]} \|\mathbf{f}_{i,j} - \mathbf{c}_k\|_2\]

聚类使用 Faiss GPU 的层次化 k-means，在 64 张 GPU 上约 10 小时完成。

OCR 区域数据：使用 PaddleOCR 从 LAION-2B 和 COYO-700M 提取文本（置信度 >0.7），获得 5000 万图像、4 亿候选区域。对提取文本进行 tokenize 得到 OCR 标签。

关键设计二：Region Transformer 层¶

区域采样：对每张图像标准化区域数量为 \(N\)。若实际区域数超过 \(N\) 则随机采样，不足则重复采样。

区域注意力： - 各区域 token 数量因空间大小不同而不一致，直接 batch 处理困难 - 引入区域可见性掩码 \(\mathcal{M}\)：区域内 token 设为 0，区域外设为 \(-\infty\) - 区域注意力计算：

\[\mathcal{R}_{\text{batch}} = \sigma\left(\frac{\mathbf{Q}_{\text{batch}} \mathbf{K}_{\text{batch}}^\top}{\sqrt{d_k}} + \mathcal{M}\right) \mathbf{V}_{\text{batch}}\]

单次前向传播即可提取所有区域的固定长度嵌入

关键设计三：区域聚类判别损失¶

目标区域损失（单标签分类）：

\[\mathcal{L}_{object} = \log(1 + \exp(-sim(\hat{\mathbf{y}}_{i,j}, \mathbf{y}_{i,j}^{object}))) + \log(1 + \sum_{j \in \Omega_n^{object}} \exp(sim(\hat{\mathbf{y}}_{i,j}, \mathbf{y}_{i,j}^{object})))\]

OCR 区域损失（多标签分类）：每个 OCR 区域有多个 token 嵌入作为正类：

\[\mathcal{L}_{ocr} = \log(1 + \sum_{j \in \Omega_p^{ocr}} \exp(-sim)) + \log(1 + \sum_{j \in \Omega_n^{ocr}} \exp(sim))\]

负类采样策略：从完整类别集中按采样率 \(\rho=0.1\) 均匀采样负类中心，减少语义冲突梯度，提升训练稳定性。

实验¶

MLLM 多模态理解（LLaVA-NeXT 框架）¶

Vision Tower	LLM	DocVQA	OCRBench	InfoVQA	MM-Bench	其他 Avg
CLIP ViT-L-336px	Qwen2.5-7B	75.21	525	38.88	74.57	69.83
SigLIP SO400M-384px	Qwen2.5-7B	76.71	554	41.38	76.98	70.62
AIMv2 ViT-L-336px	Qwen2.5-7B	77.19	572	35.44	78.61	70.58
RICE ViT-L-336px	Qwen2.5-7B	79.19	575	45.23	76.55	73.03

RICE-336px 在 OCR 任务上全面领先：比 CLIP 的 OCRBench 提升 +50 分，DocVQA 提升 +3.98%。

指代图像分割（LLaVA-NeXT + LISA）¶

Vision Tower	LLM	RefCOCO val	RefCOCO+ val	RefCOCOg val
CLIP	Qwen2.5-7B	81.8	76.6	77.3
MLCD	Qwen2.5-7B	82.8	77.4	78.5
RICE	Qwen2.5-7B	83.5	79.4	79.8

RICE 在所有 RefCOCO 基准上均超越 CLIP 和 MLCD，平均 IoU 提升 +2.45（vs CLIP）和 +1.30（vs MLCD）。

关键发现¶

区域聚类判别在 OCR 密集任务上优势突出（InfoVQA +9.79 vs AIMv2），因为联合训练目标语义和 OCR 避免了两者的冲突
t-SNE 可视化显示 RICE 的物体特征聚类远优于 DINOv2、MLCD 和 SigLIP
随机负类采样率 \(\rho=0.1\) 是最优选择，过高会引入语义冲突梯度
Region Transformer 层的位置在最后数层最优，兼顾全局上下文和区域精度

亮点与洞察¶

数据工程驱动：20 亿区域 + 100 万聚类中心的数据构建规模宏大，通过聚类中心替代文本描述实现了无文本的区域监督
统一框架：目标识别和 OCR 任务在同一分类框架下联合训练，避免多任务冲突
即插即用：RICE 视觉编码器可直接替换 CLIP 接入 LLaVA 等框架，无需架构修改

局限性¶

数据构建依赖 SAM 和 PaddleOCR 的质量，标注噪声可能传播到聚类中心
100 万聚类中心的存储和更新成本较高
仅验证了 ViT-L 和 ViT-B 规模，更大模型（如 ViT-G）的效果未知

评分¶

新颖性: ⭐⭐⭐⭐ — 区域聚类判别的思路新颖，统一 Object+OCR 的设计有意义
技术深度: ⭐⭐⭐⭐ — Region Transformer 和损失函数设计完整，数据工程扎实
实验: ⭐⭐⭐⭐⭐ — 覆盖 MLLM/分割/检测/OCR 多维度，消融充分
写作: ⭐⭐⭐⭐ — 动机清晰，框架图直观