Dynamic Group Detection using VLM-augmented Temporal Groupness Graph¶

会议: ICCV 2025
arXiv: 2509.04758
代码: https://github.com/irajisamurai/VLM-GroupDetection.git
领域: 多模态VLM
关键词: 群组检测, CLIP, 时序图聚类, 社交行为分析, Louvain算法

一句话总结¶

本文提出基于VLM增强的时序群组图（temporal groupness graph）进行视频中的动态人群群组检测，核心创新是用CLIP提取包含人对和背景的groupness-augmented特征来估计成组概率，并通过全帧时序图的Louvain聚类实现动态变化群组的检测。

研究背景与动机¶

领域现状：群组检测（group detection）旨在将视频中观察到的所有人划分为不同的群组，广泛用于群体活动识别、轨迹预测和异常检测。传统方法依赖人的空间位置+面部朝向+姿态等手工特征，近期方法开始用深度学习联合学习这些特征。

现有痛点： - 局部特征不够：现有方法独立提取每个人的特征然后比较/合并，忽略了空间场景上下文——两个人可能不面对面但在浏览同一个背景物体（如商店橱窗），此时他们是一组的 - 只做静态群组检测：现有方法假设视频中群组结构不变，只输出一个固定的群组集合。但现实中人们会在不同群组间流动（如Fig.1b所示，3人组在 \(t_1\) 分裂为两组在 \(t_2\)） - 鸡生蛋问题：要把视频分割成群组结构不变的短片需要先知道群组何时变化，但这正是要检测的内容

核心矛盾：需要同时利用空间场景上下文（理解复杂互动）和时序上下文（检测动态变化），但之前方法只能做到其中之一。

本文目标 设计能同时利用空间和时序场景上下文的方法，实现视频中动态变化群组的检测。

切入角度：(a) 用VLM（CLIP）从包含人对+背景的bounding box直接估计成组概率，天然融合了空间场景上下文；(b) 将所有帧的成组概率构建为时序图，用Louvain算法做全局最优聚类来检测动态群组。

核心 idea：用CLIP增强的图像特征捕获空间场景上下文估计两两成组概率，构建全帧时序图后用Louvain聚类实现动态群组检测。

方法详解¶

整体框架¶

如Fig.3所示：对视频每帧中的所有人对，提取轨迹特征和图像特征（GA-CLIP），融合后估计每对的成组概率 \(P_g\)。所有帧的成组概率构建时序群组图（temporal groupness graph），通过Louvain算法聚类得到动态群组。

关键设计¶

Groupness-Augmented CLIP (GA-CLIP):
- 功能：从包含目标人对和背景的bounding box中提取群组相关的视觉特征
- 核心思路： 1) 红圈标注：在bounding box中用红色圆圈标注目标人对（Fig.2a），引导CLIP关注这两个人而非其他人。受[3]启发但扩展到标注两人 2) 三分类微调：在CLIP图像编码器上用三分类任务微调——"a group of people"、"individual people"、"occlusion"。加入遮挡类是因为遮挡会使图像特征不可靠（Fig.4d） 3) 微调后只保留图像编码器提取特征 \(Z_{app} = \psi(I_{app})\)，不用分类层
- 设计动机：预训练CLIP已经具备一定的群组理解能力（Fig.4a-b验证），但对三人以上场景和遮挡情况处理不好。红圈+微调解决这两个问题
轨迹特征提取:
- 功能：从人的运动轨迹中提取时序特征
- 核心思路：两步提取——(1) 帧内：将人对的位置属性（bbox位置、面部朝向等）\(X_{traj}\) 通过编码器 \(\phi\) 得到帧内特征 \(E_{traj}\)；(2) 时序：将 \(T\) 帧的帧内特征拼接后通过Transformer编码器 \(\chi\) 得到时序轨迹特征 \(Z_{traj}\)
- 设计动机：运动模式（同步行走、停留位置接近等）是判断群组的重要线索，图像特征无法完全捕获
图像-轨迹融合与成组概率估计:
- 功能：融合视觉和轨迹特征估计每对的成组概率
- 核心思路：将 \(Z_{app}\) 和 \(Z_{traj}\) 拼接得到 \(Z\)，通过全连接层+softmax得到成组概率 \(R = (P_i, P_g) = SM(\rho(Z))\)。当GA-CLIP检测到遮挡时，模型自动更多依赖轨迹特征
- 设计动机：图像和轨迹提供互补信息，遮挡时图像不可靠需转向轨迹
时序群组图构建与Louvain聚类:
- 功能：从帧内成组概率构建跨帧时序图并聚类得到动态群组
- 核心思路：
  - Step 1：每帧构建帧内群组图，节点为人，边权重为成组概率 \(P_g\)
  - Step 2：相邻帧间通过身份概率 \(P_t\)（来自MOT或GT跟踪ID）连接同一个人的节点，构建时序群组图
  - Step 3：用Louvain算法最大化图的模块度来聚类。Louvain不需要预设聚类数量等超参数
- 设计动机：之前方法要么合并所有帧取平均（无法检测动态变化），要么需要手动指定聚类数。时序图+Louvain既能检测动态变化又自动确定群组数量

损失函数 / 训练策略¶

GA-CLIP：三分类交叉熵损失微调
联合训练：轨迹编码器 \(\phi\)、时序编码器 \(\chi\) 和融合网络 \(\rho\) 联合训练，GA-CLIP编码器固定
训练目标：成组概率 \(R\) 与GT \(R_{gt} \in \{(1,0)^T, (0,1)^T\}\) 的交叉熵损失

实验关键数据¶

主实验（静态群组检测）¶

方法	JRDB F1	Café F1	特征类型
GDet (位置+朝向)	~72	~65	手工特征
PCTDM	~75	~68	DINOv2
SIDNet	~77	~70	学习特征
Ours (GA-CLIP)	~82	~74	GA-CLIP

消融实验¶

配置	JRDB F1	Café F1	说明
Full (GA-CLIP + 轨迹 + 时序图)	~82	~74	完整模型
w/o GA-CLIP (仅轨迹)	~75	~68	视觉特征贡献显著
w/o 红圈标注	~79	~71	红圈引导CLIP注意力有效
w/o 遮挡类	~80	~72	遮挡检测有帮助
w/o 时序图 (静态合并)	~80	~72	动态检测需要时序图
用DINOv2替换CLIP	~78	~70	CLIP比DINOv2更好

关键发现¶

GA-CLIP特征显著优于DINOv2等视觉特征，验证了VLM对群组理解的优越性
红圈标注是让CLIP在多人场景中关注目标人对的关键技巧
时序群组图+Louvain实现了动态群组检测，这是之前方法不支持的新能力
遮挡检测类使模型在遮挡场景下更鲁棒
动态检测结果可以简单地转换为静态检测结果（取帧内聚类即可）

亮点与洞察¶

VLM用于群组理解：巧妙利用CLIP预训练的社交场景理解能力，通过红圈标注引导CLIP关注特定人对。将VLM的零样本能力适配到群组检测是非常新颖的思路
动态群组检测新任务：之前方法都假设群组不变（静态检测），本文首次实现了动态变化群组的检测。时序群组图是一个优雅的形式化方式
Louvain聚类：相比谱聚类和标签传播，Louvain不需要预设聚类数量等超参数，更适合大规模时序图的高效聚类
遮挡类设计：在二分类基础上加入遮挡类，让模型知道什么时候图像特征不可靠从而转向轨迹特征，简单但有效

局限与展望¶

依赖准确的人物检测和跟踪作为前置条件
红圈标注是手工设计的视觉prompt，更自动化的注意力引导方式值得探索
Louvain算法在分辨率参数上可能影响聚类粒度
在人群非常密集的场景下bbox重叠严重，可能影响GA-CLIP特征质量
未使用视频理解VLM（如VideoCLIP），可能进一步提升时序建模能力

评分¶

新颖性: ⭐⭐⭐⭐ VLM+动态群组检测是新颖的组合，但各组件相对标准
实验充分度: ⭐⭐⭐⭐ JRDB和Café数据集，静态+动态评估，消融充分
写作质量: ⭐⭐⭐⭐ 条理清晰，实验分析详细
价值: ⭐⭐⭐⭐ 动态群组检测新任务有实际应用价值，VLM应用思路有启发性