Nonverbal Interaction Detection¶
会议: ECCV 2024
arXiv: 2407.08133
代码: 有
领域: 目标检测 / 社交信号处理
关键词: 非语言交互, 超图学习, 社交智能, 人体检测, 高阶关系建模
一句话总结¶
首次系统性研究人类非语言交互(手势、表情、注视、姿态、触碰),提出大规模数据集 NVI、新任务 NVI-DET 和基于双重多尺度超图的检测模型 NVI-DEHR,在非语言交互检测和 HOI 检测任务上均取得最优性能。
研究背景与动机¶
非语言行为(facial expression, gaze, gesture, posture, touch)占据了人类社交交互的近三分之二,但在 AI 领域受到的关注远不及语言分析。现有方法存在以下核心问题:
孤立研究:现有数据集和方法各自聚焦单一类型的非语言信号(如 RAF-DB 只关注表情、VACATION 只关注注视、EgoGesture 只关注手势),无法捕捉多种信号的并发和相互关联。例如,注视回避通常伴随愤怒/悲伤表情和交叉双臂。
数据局限:部分数据集在受控条件下采集(如 MSR-Action3D、UTKinect-Action),与真实社交场景差距明显。
缺乏统一任务:不同类型的交互在不同粒度下被描述和研究(个体表情、成对 HOI、群组注视),缺乏统一框架。
关系建模不足:HOI 检测主要处理成对关系,而非语言交互往往涉及多人高阶关系,需要更强的关系推理能力。
作者的核心洞察是:所有非语言信号——无论类型或参与人数——都可以归结为"个体行为"(受他人影响的个体动作)和"集体行为"(群组共同动作)的组合,因此可以用统一的三元组 \(\langle \text{individual}, \text{group}, \text{interaction} \rangle\) 来形式化。
方法详解¶
整体框架¶
NVI-DEHR 基于 DETR 架构扩展,包含四个核心模块:(1) 共享视觉编码器提取图像特征;(2) 实例解码器检测个体和社交群组;(3) 双重多尺度超图建模高阶个体-个体和群组-群组关系;(4) 交互解码器预测非语言交互类别。
关键设计¶
-
NVI 数据集与分类体系:构建了包含 13,711 张图像、49K+ 人体标注和 72K 社交交互的大规模数据集。采用层次分类法,定义 5 大类(gaze、touch、facial expression、gesture、posture)下的 22 个原子级行为(如 gaze-following、mutual-gaze、handshake、smile 等)。数据集标注包括个体边界框、社交群组边界框和交互类别。
-
双重多尺度超图 (Dual Multi-Scale Hypergraph):这是模型的核心创新。普通图只能建模成对关系,而超图的超边可以连接任意数量的顶点,天然适合高阶关系建模。
- 构建两个超图:\(\mathcal{G}_h\)(以个体为顶点,建模同一群组中个体间关系)和 \(\mathcal{G}_g\)(以群组为顶点,建模相关群组间关系)
- 多尺度设计:每个超图包含从 \(s=1\) 到 \(s=S\) 的多个尺度。\(s=1\) 时各顶点独立,\(s>1\) 时通过亲和矩阵选取最相似的 \(s\) 个顶点形成超边
- 亲和度计算:\(A_{ij} = \mathbf{v}_i^\top \mathbf{v}_j / \|\mathbf{v}_i\| \|\mathbf{v}_j\|\)
- 超边形成:\(e_i^s = \arg\max_{\mathcal{O} \subseteq \mathcal{V}} \|A_{\mathcal{O},\mathcal{O}}\|_{1,1}\),s.t. \(|\mathcal{O}|=s\) 且 \(v_i \in \mathcal{O}\),通过贪心算法求解
- 设计动机:社交交互的参与者数量不固定,多尺度设计能捕捉从 2 人到 5 人的各种群组规模,研究表明 10 人以上讨论中 80% 的发言由 4-5 人贡献
-
超图卷积学习:通过 \(L\) 层超边卷积层在顶点间传递信息:
\(\mathbf{V}_h^{s,(l)} = (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{H}_h^s (\mathbf{D}_{h,e}^s)^{-1} \mathbf{H}_h^{s\top} (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{V}_h^{s,(l-1)} \theta_h^{s,(l)}\)
最终通过 MLP 聚合各尺度特征:\(\mathbf{F}_h = \text{MLP}([\mathbf{V}_h^{1,(L)}, \mathbf{V}_h^{2,(L)}, \ldots, \mathbf{V}_h^{S,(L)}])\)
- 交互解码器:基于超图学习后的高阶特征动态生成交互查询 \(\mathbf{Q}_n = (\mathbf{F}_h + \mathbf{F}_g)/2\),利用 Transformer 解码器预测交互类别。动态查询初始化比随机初始化更有效,因为融合了丰富的关系上下文信息。
损失函数 / 训练策略¶
- 使用 Hungarian 算法进行端到端训练的二部匹配
- 损失函数:\(\mathcal{L} = \lambda_1 \mathcal{L}_1 + \lambda_2 \mathcal{L}_{GIoU} + \lambda_3 \mathcal{L}_c\)
- \(\mathcal{L}_1\) 和 \(\mathcal{L}_{GIoU}\):定位损失
- \(\mathcal{L}_c\):焦点损失(分类)
- 系数设置:\(\lambda_1=2.5, \lambda_2=1, \lambda_3=2\)
- 使用 ResNet-50 backbone,默认 \(N=64\) 查询、\(C=256\) 通道、\(S=5\) 尺度、\(L=2\) 卷积层
- 训练 90 epochs,前 60 epoch 学习率 1e-4,后 30 epoch 降为 1e-5
- 评估指标:mR@K(mean Recall@K),在 IoU 阈值 {0.25, 0.5, 0.75} 上取平均
实验关键数据¶
主实验 — NVI-DET¶
| 方法 | mR@25 | mR@50 | mR@100 | AR (平均) |
|---|---|---|---|---|
| m-QPIC | 59.44 | 71.46 | 80.07 | 70.32 |
| m-CDN | 59.01 | 72.94 | 82.61 | 71.52 |
| m-GEN-VLKT | 56.68 | 74.32 | 84.18 | 71.72 |
| NVI-DEHR (Ours) | 59.46 | 76.01 | 88.52 | 74.67 |
NVI-DEHR 在 test 集上达到 74.67 AR,比最好的 baseline m-GEN-VLKT 提升 2.95。
消融实验 — 超图尺度数量 S¶
| S | mR@25 | mR@50 | mR@100 | AR |
|---|---|---|---|---|
| 1 | 53.39 | 69.81 | 81.90 | 68.37 |
| 3 | 53.52 | 70.45 | 83.92 | 69.30 |
| 5 | 54.85 | 73.42 | 85.33 | 71.20 |
| 6 | 54.59 | 73.11 | 85.24 | 70.98 |
消融实验 — 超边卷积层数 L¶
| L | mR@25 | mR@50 | mR@100 | AR |
|---|---|---|---|---|
| 0 (无超图) | 53.50 | 69.44 | 81.71 | 68.22 |
| 1 | 53.76 | 71.74 | 83.61 | 69.70 |
| 2 | 54.85 | 73.42 | 85.33 | 71.20 |
| 3 | 54.36 | 72.47 | 84.85 | 70.56 |
HOI-DET 泛化能力¶
| 方法 | HICO-DET Full | Rare | Non-Rare | V-COCO S1 | V-COCO S2 |
|---|---|---|---|---|---|
| HOICLIP (之前 SOTA) | 34.54 | 30.71 | 35.70 | 63.5 | 64.8 |
| NVI-DEHR | 35.30 | 31.43 | 36.64 | 64.1 | 65.3 |
关键发现¶
- CLIP-based 方法 m-GEN-VLKT 在 NVI-DET 上表现不佳,说明从视觉语言模型迁移知识到非语言交互检测比 HOI 更困难
- 多尺度超图从 S=1 到 S=5 带来持续提升(68.37→71.20 AR),但 S=6 略有下降——与社交心理学发现一致
- L=2 层超图卷积达到最佳平衡,过多层数导致噪声传播
- 模型在 HOI-DET 标准数据集上同样取得 SOTA,证明超图结构具有良好的泛化能力
亮点与洞察¶
- 问题定义的创新性:首次将多种非语言信号在统一框架下研究,提出 ⟨individual, group, interaction⟩ 三元组形式化,比 HOI 的二元组更具表达力
- 超图的自然匹配:非语言交互天然涉及不定数量的参与者,超图的超边可以连接任意数量顶点,比普通图更适合
- 数据集价值:NVI 是首个覆盖 5 大类 22 种原子行为的综合非语言交互数据集
- 双任务验证:NVI-DEHR在两个不同但相关的任务上都达到 SOTA,说明设计的通用性
局限与展望¶
- 非语言信号的模糊性和微妙性仍是主要挑战(如 mutual gaze vs gaze aversion 的区分)
- 严重遮挡的个体难以检测
- 长尾分布问题:beckon 等稀有行为的样本量极少
- 未考虑视频中的时序信息,动态非语言交互理解有待探索
- 数据集基于 PIC 2.0 扩展,场景多样性可能受限
相关工作与启发¶
- 与 HOI-DET 的关键区别:非语言信号更微妙、更模糊、涉及多人,不仅仅是成对动作
- 超图学习在人体解析和 HOI 检测中已有应用,本文是首次用于非语言交互
- 未来方向:可与大语言模型结合,实现对非语言信号的自然语言描述和推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次系统研究非语言交互,数据集+任务+模型三大贡献
- 实验充分度: ⭐⭐⭐⭐ — NVI-DET 和 HOI-DET 双任务验证,消融实验充分,但缺少与更多视觉关系检测方法的比较
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,社交心理学背景增加说服力
- 实用价值: ⭐⭐⭐⭐ — 对社交机器人、人机交互、情感计算等领域有重要推动作用
相关论文¶
- [ICLR 2026] Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition
- [CVPR 2026] Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection
- [CVPR 2025] VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness
- [ICML 2025] UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
- [ECCV 2024] TAPTR: Tracking Any Point with Transformers as Detection