Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting (WS-COC)¶
会议: ICLR 2026
arXiv: 2602.12774
代码: https://github.com/viscom-tongji/WS-COC
领域: 多模态VLM
关键词: object counting, weakly supervised, MLLM, class-agnostic, dialogue tuning
一句话总结¶
提出 WS-COC,首个基于 MLLM 的弱监督类无关目标计数框架,通过分而治之的对话微调(逐步缩小计数范围)、比较排序优化(学习图像间相对计数关系)和全局-局部计数增强三个策略,仅用图像级计数标注即可匹敌甚至超越全监督方法。
研究背景与动机¶
- 领域现状:目标计数传统上依赖逐点标注的密度图回归(全监督),成本高昂。弱监督方法仅用图像级计数但目前仅限于单一类别(如行人计数)。
- 现有痛点:(1) 全监督方法需要标注每个目标实例的位置——在密集场景中极其耗时;(2) 现有弱监督方法基于 CNN/ViT,局限于特定类别;(3) MLLM 有潜在计数能力但在密集场景中严重低估(直接预测一个数字太难)。
- 核心矛盾:MLLM 预训练数据中多为稀疏场景,对密集场景的数量感知不足。直接微调 MLLM 回归计数值面临视觉-文本的模态鸿沟——高维视觉特征到离散标量的映射难以学习。
- 本文要解决什么? 如何利用 MLLM 的推理能力,仅用图像级计数标注实现类无关的目标计数?
- 切入角度:不直接预测计数值,而是分解为更易学的子任务——范围判断(二分法缩小范围)和相对比较(图像间排序)。
- 核心idea一句话:将计数从"预测一个数字"重构为"判断范围+相对排序+局部聚合"三个 MLLM 更擅长的子任务。
方法详解¶
整体框架¶
WS-COC 在 LLaVA-OneVision 上用 LoRA 微调,训练时使用 D3T + CRCO 两个策略,推理时使用 GLCE 策略。仅需图像级计数标注作为监督。
关键设计¶
- Divide-and-Discern Dialogue Tuning (D3T):
- 做什么:将精确计数转化为多轮范围判断对话
- 核心思路:设初始范围 [1, 2000],每轮二分——"图像中的 [obj] 数量是否超过 τ?" 答 Yes/No 并更新范围。当范围窄到 \(U_t - L_t < 0.2c\) 时要求预测精确计数。用课程学习方式从粗到细
-
设计动机:判断数量是否超过某个阈值比直接预测数字容易得多。多轮对话让 MLLM 渐进式聚焦
-
Compare-and-Rank Count Optimization (CRCO):
- 做什么:训练 MLLM 判断多张图像的相对计数排序
- 核心思路:按计数将同类别图像分成 4 个区间,每个区间采样一张组成图像集(保证稀疏/密集都覆盖),打乱后让 MLLM 输出升序排列 "Image i < ... < Image j"
-
设计动机:判断"哪张图片有更多目标"比预测绝对数字更贴近视觉直觉,缓解模态鸿沟
-
Global-and-Local Counting Enhancement (GLCE):
- 做什么:推理时融合全局和局部计数预测
- 核心思路:先预测全局计数 \(c^g\)。若 \(c^g > c^h\)(阈值 100),则将图像切成 2×2 子图,分别计数并求和得 \(c^l\),最终取 \((c^g + c^l) / 2\)
- 设计动机:全局计数在密集场景下低估,局部计数因边缘效应高估——取均值互补
损失函数 / 训练策略¶
标准语言建模 cross-entropy 损失。LLaVA-OneVision-7B + LoRA (rank=128)。在 FSC-147 上训练。
实验关键数据¶
主实验(FSC-147 Test Set MAE↓)¶
| 方法 | 监督类型 | MAE↓ | RMSE↓ |
|---|---|---|---|
| CLIP-Count | 全监督(点标注) | 17.78 | 106.62 |
| T2ICount | 全监督 | ~好 | ~好 |
| CountGD | 全监督 | ~好 | ~好 |
| WS-COC | 弱监督(图像级) | ~匹敌全监督 | ~匹敌 |
| WS-COC-Base (直接微调) | 弱监督 | 高 | 高 |
| MLLM-Zero (无微调) | 零样本 | 很高 | 很高 |
消融实验¶
| 配置 | 效果 |
|---|---|
| Base only | 密集场景严重低估 |
| + D3T | 显著改善 |
| + D3T + CRCO | 进一步改善 |
| + D3T + CRCO + GLCE | 最佳,尤其密集场景 |
关键发现¶
- 弱监督的 WS-COC 匹敌甚至超越多个全监督方法——颠覆性的标注效率提升
- D3T 的对话式二分法在密集场景上的改善最大——从直接回归到范围判断的任务重构是关键
- CRCO 的相对排序学习特别有助于建立跨量级的数量感知
- 跨数据集泛化(FSC-147→CARPK/PUCPR+/ShanghaiTech)表现良好
- 在 20 个以下目标的稀疏场景中 MLLM 零样本就已相当准确
亮点与洞察¶
- 任务重构是核心贡献:不是设计更好的视觉特征,而是将"预测数字"重构为 MLLM 更擅长的子任务(判断/比较/分而治之),这种思路可推广到其他需要数值回归的 VLM 应用
- 弱监督达到全监督水平:目标计数领域的重要突破——点标注的昂贵成本可能不再必要
- 对话式推理的优雅应用:利用 MLLM 的多轮对话能力做"二分搜索",是对 MLLM 交互能力的创造性利用
局限性 / 可改进方向¶
- GLCE 的简单均值融合可能不是最优——可以学习自适应的融合权重
- 2×2 分割对极密集场景可能仍不够细——需要更多层级的分割
- 依赖目标类别名称作为文本 prompt,对未知类别或难以命名的目标可能受限
- 计数阈值 \(c^h=100\) 是手动设定的
相关工作与启发¶
- vs 全监督计数方法(CounTR, CountGD): WS-COC 无需点标注即达到可比性能
- vs CrowdCLIP(排序策略): CrowdCLIP 用裁剪同一图像做排序,WS-COC 用不同图像做排序——更合理
- vs AQuA(VLM 不确定性处理): WS-COC 的对话式二分法可视为另一种处理 VLM 不确定性的策略
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 任务重构的三个策略都很有创意
- 实验充分度: ⭐⭐⭐⭐ 4 个 benchmark,详细消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 弱监督达到全监督水平,实用性极强