跳转至

Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting (WS-COC)

会议: ICLR 2026
arXiv: 2602.12774
代码: https://github.com/viscom-tongji/WS-COC
领域: 多模态VLM
关键词: object counting, weakly supervised, MLLM, class-agnostic, dialogue tuning

一句话总结

提出 WS-COC,首个基于 MLLM 的弱监督类无关目标计数框架,通过分而治之的对话微调(逐步缩小计数范围)、比较排序优化(学习图像间相对计数关系)和全局-局部计数增强三个策略,仅用图像级计数标注即可匹敌甚至超越全监督方法。

研究背景与动机

  1. 领域现状:目标计数传统上依赖逐点标注的密度图回归(全监督),成本高昂。弱监督方法仅用图像级计数但目前仅限于单一类别(如行人计数)。
  2. 现有痛点:(1) 全监督方法需要标注每个目标实例的位置——在密集场景中极其耗时;(2) 现有弱监督方法基于 CNN/ViT,局限于特定类别;(3) MLLM 有潜在计数能力但在密集场景中严重低估(直接预测一个数字太难)。
  3. 核心矛盾:MLLM 预训练数据中多为稀疏场景,对密集场景的数量感知不足。直接微调 MLLM 回归计数值面临视觉-文本的模态鸿沟——高维视觉特征到离散标量的映射难以学习。
  4. 本文要解决什么? 如何利用 MLLM 的推理能力,仅用图像级计数标注实现类无关的目标计数?
  5. 切入角度:不直接预测计数值,而是分解为更易学的子任务——范围判断(二分法缩小范围)和相对比较(图像间排序)。
  6. 核心idea一句话:将计数从"预测一个数字"重构为"判断范围+相对排序+局部聚合"三个 MLLM 更擅长的子任务。

方法详解

整体框架

WS-COC 在 LLaVA-OneVision 上用 LoRA 微调,训练时使用 D3T + CRCO 两个策略,推理时使用 GLCE 策略。仅需图像级计数标注作为监督。

关键设计

  1. Divide-and-Discern Dialogue Tuning (D3T):
  2. 做什么:将精确计数转化为多轮范围判断对话
  3. 核心思路:设初始范围 [1, 2000],每轮二分——"图像中的 [obj] 数量是否超过 τ?" 答 Yes/No 并更新范围。当范围窄到 \(U_t - L_t < 0.2c\) 时要求预测精确计数。用课程学习方式从粗到细
  4. 设计动机:判断数量是否超过某个阈值比直接预测数字容易得多。多轮对话让 MLLM 渐进式聚焦

  5. Compare-and-Rank Count Optimization (CRCO):

  6. 做什么:训练 MLLM 判断多张图像的相对计数排序
  7. 核心思路:按计数将同类别图像分成 4 个区间,每个区间采样一张组成图像集(保证稀疏/密集都覆盖),打乱后让 MLLM 输出升序排列 "Image i < ... < Image j"
  8. 设计动机:判断"哪张图片有更多目标"比预测绝对数字更贴近视觉直觉,缓解模态鸿沟

  9. Global-and-Local Counting Enhancement (GLCE):

  10. 做什么:推理时融合全局和局部计数预测
  11. 核心思路:先预测全局计数 \(c^g\)。若 \(c^g > c^h\)(阈值 100),则将图像切成 2×2 子图,分别计数并求和得 \(c^l\),最终取 \((c^g + c^l) / 2\)
  12. 设计动机:全局计数在密集场景下低估,局部计数因边缘效应高估——取均值互补

损失函数 / 训练策略

标准语言建模 cross-entropy 损失。LLaVA-OneVision-7B + LoRA (rank=128)。在 FSC-147 上训练。

实验关键数据

主实验(FSC-147 Test Set MAE↓)

方法 监督类型 MAE↓ RMSE↓
CLIP-Count 全监督(点标注) 17.78 106.62
T2ICount 全监督 ~好 ~好
CountGD 全监督 ~好 ~好
WS-COC 弱监督(图像级) ~匹敌全监督 ~匹敌
WS-COC-Base (直接微调) 弱监督
MLLM-Zero (无微调) 零样本 很高 很高

消融实验

配置 效果
Base only 密集场景严重低估
+ D3T 显著改善
+ D3T + CRCO 进一步改善
+ D3T + CRCO + GLCE 最佳,尤其密集场景

关键发现

  • 弱监督的 WS-COC 匹敌甚至超越多个全监督方法——颠覆性的标注效率提升
  • D3T 的对话式二分法在密集场景上的改善最大——从直接回归到范围判断的任务重构是关键
  • CRCO 的相对排序学习特别有助于建立跨量级的数量感知
  • 跨数据集泛化(FSC-147→CARPK/PUCPR+/ShanghaiTech)表现良好
  • 在 20 个以下目标的稀疏场景中 MLLM 零样本就已相当准确

亮点与洞察

  • 任务重构是核心贡献:不是设计更好的视觉特征,而是将"预测数字"重构为 MLLM 更擅长的子任务(判断/比较/分而治之),这种思路可推广到其他需要数值回归的 VLM 应用
  • 弱监督达到全监督水平:目标计数领域的重要突破——点标注的昂贵成本可能不再必要
  • 对话式推理的优雅应用:利用 MLLM 的多轮对话能力做"二分搜索",是对 MLLM 交互能力的创造性利用

局限性 / 可改进方向

  • GLCE 的简单均值融合可能不是最优——可以学习自适应的融合权重
  • 2×2 分割对极密集场景可能仍不够细——需要更多层级的分割
  • 依赖目标类别名称作为文本 prompt,对未知类别或难以命名的目标可能受限
  • 计数阈值 \(c^h=100\) 是手动设定的

相关工作与启发

  • vs 全监督计数方法(CounTR, CountGD): WS-COC 无需点标注即达到可比性能
  • vs CrowdCLIP(排序策略): CrowdCLIP 用裁剪同一图像做排序,WS-COC 用不同图像做排序——更合理
  • vs AQuA(VLM 不确定性处理): WS-COC 的对话式二分法可视为另一种处理 VLM 不确定性的策略

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 任务重构的三个策略都很有创意
  • 实验充分度: ⭐⭐⭐⭐ 4 个 benchmark,详细消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
  • 价值: ⭐⭐⭐⭐⭐ 弱监督达到全监督水平,实用性极强