Nonverbal Interaction Detection¶

会议: ECCV 2024
arXiv: 2407.08133
代码: 有
领域: 目标检测 / 社交信号处理
关键词: 非语言交互, 超图学习, 社交智能, 人体检测, 高阶关系建模

一句话总结¶

首次系统性研究人类非语言交互（手势、表情、注视、姿态、触碰），提出大规模数据集 NVI、新任务 NVI-DET 和基于双重多尺度超图的检测模型 NVI-DEHR，在非语言交互检测和 HOI 检测任务上均取得最优性能。

研究背景与动机¶

非语言行为（facial expression, gaze, gesture, posture, touch）占据了人类社交交互的近三分之二，但在 AI 领域受到的关注远不及语言分析。现有方法存在以下核心问题：

孤立研究：现有数据集和方法各自聚焦单一类型的非语言信号（如 RAF-DB 只关注表情、VACATION 只关注注视、EgoGesture 只关注手势），无法捕捉多种信号的并发和相互关联。例如，注视回避通常伴随愤怒/悲伤表情和交叉双臂。

数据局限：部分数据集在受控条件下采集（如 MSR-Action3D、UTKinect-Action），与真实社交场景差距明显。

缺乏统一任务：不同类型的交互在不同粒度下被描述和研究（个体表情、成对 HOI、群组注视），缺乏统一框架。

关系建模不足：HOI 检测主要处理成对关系，而非语言交互往往涉及多人高阶关系，需要更强的关系推理能力。

作者的核心洞察是：所有非语言信号——无论类型或参与人数——都可以归结为"个体行为"（受他人影响的个体动作）和"集体行为"（群组共同动作）的组合，因此可以用统一的三元组 \(\langle \text{individual}, \text{group}, \text{interaction} \rangle\) 来形式化。

方法详解¶

整体框架¶

NVI-DEHR 基于 DETR 架构扩展，包含四个核心模块：(1) 共享视觉编码器提取图像特征；(2) 实例解码器检测个体和社交群组；(3) 双重多尺度超图建模高阶个体-个体和群组-群组关系；(4) 交互解码器预测非语言交互类别。

关键设计¶

NVI 数据集与分类体系：构建了包含 13,711 张图像、49K+ 人体标注和 72K 社交交互的大规模数据集。采用层次分类法，定义 5 大类（gaze、touch、facial expression、gesture、posture）下的 22 个原子级行为（如 gaze-following、mutual-gaze、handshake、smile 等）。数据集标注包括个体边界框、社交群组边界框和交互类别。
双重多尺度超图 (Dual Multi-Scale Hypergraph)：这是模型的核心创新。普通图只能建模成对关系，而超图的超边可以连接任意数量的顶点，天然适合高阶关系建模。
- 构建两个超图：\(\mathcal{G}_h\)（以个体为顶点，建模同一群组中个体间关系）和 \(\mathcal{G}_g\)（以群组为顶点，建模相关群组间关系）
- 多尺度设计：每个超图包含从 \(s=1\) 到 \(s=S\) 的多个尺度。\(s=1\) 时各顶点独立，\(s>1\) 时通过亲和矩阵选取最相似的 \(s\) 个顶点形成超边
- 亲和度计算：\(A_{ij} = \mathbf{v}_i^\top \mathbf{v}_j / \|\mathbf{v}_i\| \|\mathbf{v}_j\|\)
- 超边形成：\(e_i^s = \arg\max_{\mathcal{O} \subseteq \mathcal{V}} \|A_{\mathcal{O},\mathcal{O}}\|_{1,1}\)，s.t. \(|\mathcal{O}|=s\) 且 \(v_i \in \mathcal{O}\)，通过贪心算法求解
- 设计动机：社交交互的参与者数量不固定，多尺度设计能捕捉从 2 人到 5 人的各种群组规模，研究表明 10 人以上讨论中 80% 的发言由 4-5 人贡献
超图卷积学习：通过 \(L\) 层超边卷积层在顶点间传递信息：

\(\mathbf{V}_h^{s,(l)} = (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{H}_h^s (\mathbf{D}_{h,e}^s)^{-1} \mathbf{H}_h^{s\top} (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{V}_h^{s,(l-1)} \theta_h^{s,(l)}\)

最终通过 MLP 聚合各尺度特征：\(\mathbf{F}_h = \text{MLP}([\mathbf{V}_h^{1,(L)}, \mathbf{V}_h^{2,(L)}, \ldots, \mathbf{V}_h^{S,(L)}])\)

交互解码器：基于超图学习后的高阶特征动态生成交互查询 \(\mathbf{Q}_n = (\mathbf{F}_h + \mathbf{F}_g)/2\)，利用 Transformer 解码器预测交互类别。动态查询初始化比随机初始化更有效，因为融合了丰富的关系上下文信息。

损失函数 / 训练策略¶

使用 Hungarian 算法进行端到端训练的二部匹配
损失函数：\(\mathcal{L} = \lambda_1 \mathcal{L}_1 + \lambda_2 \mathcal{L}_{GIoU} + \lambda_3 \mathcal{L}_c\)
- \(\mathcal{L}_1\) 和 \(\mathcal{L}_{GIoU}\)：定位损失
- \(\mathcal{L}_c\)：焦点损失（分类）
- 系数设置：\(\lambda_1=2.5, \lambda_2=1, \lambda_3=2\)
使用 ResNet-50 backbone，默认 \(N=64\) 查询、\(C=256\) 通道、\(S=5\) 尺度、\(L=2\) 卷积层
训练 90 epochs，前 60 epoch 学习率 1e-4，后 30 epoch 降为 1e-5
评估指标：mR@K（mean Recall@K），在 IoU 阈值 {0.25, 0.5, 0.75} 上取平均

实验关键数据¶

主实验 — NVI-DET¶

方法	mR@25	mR@50	mR@100	AR (平均)
m-QPIC	59.44	71.46	80.07	70.32
m-CDN	59.01	72.94	82.61	71.52
m-GEN-VLKT	56.68	74.32	84.18	71.72
NVI-DEHR (Ours)	59.46	76.01	88.52	74.67

NVI-DEHR 在 test 集上达到 74.67 AR，比最好的 baseline m-GEN-VLKT 提升 2.95。

消融实验 — 超图尺度数量 S¶

S	mR@25	mR@50	mR@100	AR
1	53.39	69.81	81.90	68.37
3	53.52	70.45	83.92	69.30
5	54.85	73.42	85.33	71.20
6	54.59	73.11	85.24	70.98

消融实验 — 超边卷积层数 L¶

L	mR@25	mR@50	mR@100	AR
0 (无超图)	53.50	69.44	81.71	68.22
1	53.76	71.74	83.61	69.70
2	54.85	73.42	85.33	71.20
3	54.36	72.47	84.85	70.56

HOI-DET 泛化能力¶

方法	HICO-DET Full	Rare	Non-Rare	V-COCO S1	V-COCO S2
HOICLIP (之前 SOTA)	34.54	30.71	35.70	63.5	64.8
NVI-DEHR	35.30	31.43	36.64	64.1	65.3

关键发现¶

CLIP-based 方法 m-GEN-VLKT 在 NVI-DET 上表现不佳，说明从视觉语言模型迁移知识到非语言交互检测比 HOI 更困难
多尺度超图从 S=1 到 S=5 带来持续提升（68.37→71.20 AR），但 S=6 略有下降——与社交心理学发现一致
L=2 层超图卷积达到最佳平衡，过多层数导致噪声传播
模型在 HOI-DET 标准数据集上同样取得 SOTA，证明超图结构具有良好的泛化能力

亮点与洞察¶

问题定义的创新性：首次将多种非语言信号在统一框架下研究，提出 ⟨individual, group, interaction⟩ 三元组形式化，比 HOI 的二元组更具表达力
超图的自然匹配：非语言交互天然涉及不定数量的参与者，超图的超边可以连接任意数量顶点，比普通图更适合
数据集价值：NVI 是首个覆盖 5 大类 22 种原子行为的综合非语言交互数据集
双任务验证：NVI-DEHR在两个不同但相关的任务上都达到 SOTA，说明设计的通用性

局限与展望¶

非语言信号的模糊性和微妙性仍是主要挑战（如 mutual gaze vs gaze aversion 的区分）
严重遮挡的个体难以检测
长尾分布问题：beckon 等稀有行为的样本量极少
未考虑视频中的时序信息，动态非语言交互理解有待探索
数据集基于 PIC 2.0 扩展，场景多样性可能受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统研究非语言交互，数据集+任务+模型三大贡献
实验充分度: ⭐⭐⭐⭐ — NVI-DET 和 HOI-DET 双任务验证，消融实验充分，但缺少与更多视觉关系检测方法的比较
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，社交心理学背景增加说服力
实用价值: ⭐⭐⭐⭐ — 对社交机器人、人机交互、情感计算等领域有重要推动作用