跳转至

Nonverbal Interaction Detection

会议: ECCV 2024
arXiv: 2407.08133
代码:
领域: 目标检测 / 社交信号处理
关键词: 非语言交互, 超图学习, 社交智能, 人体检测, 高阶关系建模

一句话总结

首次系统性研究人类非语言交互(手势、表情、注视、姿态、触碰),提出大规模数据集 NVI、新任务 NVI-DET 和基于双重多尺度超图的检测模型 NVI-DEHR,在非语言交互检测和 HOI 检测任务上均取得最优性能。

研究背景与动机

非语言行为(facial expression, gaze, gesture, posture, touch)占据了人类社交交互的近三分之二,但在 AI 领域受到的关注远不及语言分析。现有方法存在以下核心问题:

孤立研究:现有数据集和方法各自聚焦单一类型的非语言信号(如 RAF-DB 只关注表情、VACATION 只关注注视、EgoGesture 只关注手势),无法捕捉多种信号的并发和相互关联。例如,注视回避通常伴随愤怒/悲伤表情和交叉双臂。

数据局限:部分数据集在受控条件下采集(如 MSR-Action3D、UTKinect-Action),与真实社交场景差距明显。

缺乏统一任务:不同类型的交互在不同粒度下被描述和研究(个体表情、成对 HOI、群组注视),缺乏统一框架。

关系建模不足:HOI 检测主要处理成对关系,而非语言交互往往涉及多人高阶关系,需要更强的关系推理能力。

作者的核心洞察是:所有非语言信号——无论类型或参与人数——都可以归结为"个体行为"(受他人影响的个体动作)和"集体行为"(群组共同动作)的组合,因此可以用统一的三元组 \(\langle \text{individual}, \text{group}, \text{interaction} \rangle\) 来形式化。

方法详解

整体框架

NVI-DEHR 基于 DETR 架构扩展,包含四个核心模块:(1) 共享视觉编码器提取图像特征;(2) 实例解码器检测个体和社交群组;(3) 双重多尺度超图建模高阶个体-个体和群组-群组关系;(4) 交互解码器预测非语言交互类别。

关键设计

  1. NVI 数据集与分类体系:构建了包含 13,711 张图像、49K+ 人体标注和 72K 社交交互的大规模数据集。采用层次分类法,定义 5 大类(gaze、touch、facial expression、gesture、posture)下的 22 个原子级行为(如 gaze-following、mutual-gaze、handshake、smile 等)。数据集标注包括个体边界框、社交群组边界框和交互类别。

  2. 双重多尺度超图 (Dual Multi-Scale Hypergraph):这是模型的核心创新。普通图只能建模成对关系,而超图的超边可以连接任意数量的顶点,天然适合高阶关系建模。

    • 构建两个超图:\(\mathcal{G}_h\)(以个体为顶点,建模同一群组中个体间关系)和 \(\mathcal{G}_g\)(以群组为顶点,建模相关群组间关系)
    • 多尺度设计:每个超图包含从 \(s=1\)\(s=S\) 的多个尺度。\(s=1\) 时各顶点独立,\(s>1\) 时通过亲和矩阵选取最相似的 \(s\) 个顶点形成超边
    • 亲和度计算:\(A_{ij} = \mathbf{v}_i^\top \mathbf{v}_j / \|\mathbf{v}_i\| \|\mathbf{v}_j\|\)
    • 超边形成:\(e_i^s = \arg\max_{\mathcal{O} \subseteq \mathcal{V}} \|A_{\mathcal{O},\mathcal{O}}\|_{1,1}\),s.t. \(|\mathcal{O}|=s\)\(v_i \in \mathcal{O}\),通过贪心算法求解
    • 设计动机:社交交互的参与者数量不固定,多尺度设计能捕捉从 2 人到 5 人的各种群组规模,研究表明 10 人以上讨论中 80% 的发言由 4-5 人贡献
  3. 超图卷积学习:通过 \(L\) 层超边卷积层在顶点间传递信息:

    \(\mathbf{V}_h^{s,(l)} = (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{H}_h^s (\mathbf{D}_{h,e}^s)^{-1} \mathbf{H}_h^{s\top} (\mathbf{D}_{h,v}^s)^{-\frac{1}{2}} \mathbf{V}_h^{s,(l-1)} \theta_h^{s,(l)}\)

最终通过 MLP 聚合各尺度特征:\(\mathbf{F}_h = \text{MLP}([\mathbf{V}_h^{1,(L)}, \mathbf{V}_h^{2,(L)}, \ldots, \mathbf{V}_h^{S,(L)}])\)

  1. 交互解码器:基于超图学习后的高阶特征动态生成交互查询 \(\mathbf{Q}_n = (\mathbf{F}_h + \mathbf{F}_g)/2\),利用 Transformer 解码器预测交互类别。动态查询初始化比随机初始化更有效,因为融合了丰富的关系上下文信息。

损失函数 / 训练策略

  • 使用 Hungarian 算法进行端到端训练的二部匹配
  • 损失函数:\(\mathcal{L} = \lambda_1 \mathcal{L}_1 + \lambda_2 \mathcal{L}_{GIoU} + \lambda_3 \mathcal{L}_c\)
    • \(\mathcal{L}_1\)\(\mathcal{L}_{GIoU}\):定位损失
    • \(\mathcal{L}_c\):焦点损失(分类)
    • 系数设置:\(\lambda_1=2.5, \lambda_2=1, \lambda_3=2\)
  • 使用 ResNet-50 backbone,默认 \(N=64\) 查询、\(C=256\) 通道、\(S=5\) 尺度、\(L=2\) 卷积层
  • 训练 90 epochs,前 60 epoch 学习率 1e-4,后 30 epoch 降为 1e-5
  • 评估指标:mR@K(mean Recall@K),在 IoU 阈值 {0.25, 0.5, 0.75} 上取平均

实验关键数据

主实验 — NVI-DET

方法 mR@25 mR@50 mR@100 AR (平均)
m-QPIC 59.44 71.46 80.07 70.32
m-CDN 59.01 72.94 82.61 71.52
m-GEN-VLKT 56.68 74.32 84.18 71.72
NVI-DEHR (Ours) 59.46 76.01 88.52 74.67

NVI-DEHR 在 test 集上达到 74.67 AR,比最好的 baseline m-GEN-VLKT 提升 2.95。

消融实验 — 超图尺度数量 S

S mR@25 mR@50 mR@100 AR
1 53.39 69.81 81.90 68.37
3 53.52 70.45 83.92 69.30
5 54.85 73.42 85.33 71.20
6 54.59 73.11 85.24 70.98

消融实验 — 超边卷积层数 L

L mR@25 mR@50 mR@100 AR
0 (无超图) 53.50 69.44 81.71 68.22
1 53.76 71.74 83.61 69.70
2 54.85 73.42 85.33 71.20
3 54.36 72.47 84.85 70.56

HOI-DET 泛化能力

方法 HICO-DET Full Rare Non-Rare V-COCO S1 V-COCO S2
HOICLIP (之前 SOTA) 34.54 30.71 35.70 63.5 64.8
NVI-DEHR 35.30 31.43 36.64 64.1 65.3

关键发现

  • CLIP-based 方法 m-GEN-VLKT 在 NVI-DET 上表现不佳,说明从视觉语言模型迁移知识到非语言交互检测比 HOI 更困难
  • 多尺度超图从 S=1 到 S=5 带来持续提升(68.37→71.20 AR),但 S=6 略有下降——与社交心理学发现一致
  • L=2 层超图卷积达到最佳平衡,过多层数导致噪声传播
  • 模型在 HOI-DET 标准数据集上同样取得 SOTA,证明超图结构具有良好的泛化能力

亮点与洞察

  1. 问题定义的创新性:首次将多种非语言信号在统一框架下研究,提出 ⟨individual, group, interaction⟩ 三元组形式化,比 HOI 的二元组更具表达力
  2. 超图的自然匹配:非语言交互天然涉及不定数量的参与者,超图的超边可以连接任意数量顶点,比普通图更适合
  3. 数据集价值:NVI 是首个覆盖 5 大类 22 种原子行为的综合非语言交互数据集
  4. 双任务验证:NVI-DEHR在两个不同但相关的任务上都达到 SOTA,说明设计的通用性

局限与展望

  1. 非语言信号的模糊性和微妙性仍是主要挑战(如 mutual gaze vs gaze aversion 的区分)
  2. 严重遮挡的个体难以检测
  3. 长尾分布问题:beckon 等稀有行为的样本量极少
  4. 未考虑视频中的时序信息,动态非语言交互理解有待探索
  5. 数据集基于 PIC 2.0 扩展,场景多样性可能受限

相关工作与启发

  • 与 HOI-DET 的关键区别:非语言信号更微妙、更模糊、涉及多人,不仅仅是成对动作
  • 超图学习在人体解析和 HOI 检测中已有应用,本文是首次用于非语言交互
  • 未来方向:可与大语言模型结合,实现对非语言信号的自然语言描述和推理

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次系统研究非语言交互,数据集+任务+模型三大贡献
  • 实验充分度: ⭐⭐⭐⭐ — NVI-DET 和 HOI-DET 双任务验证,消融实验充分,但缺少与更多视觉关系检测方法的比较
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,社交心理学背景增加说服力
  • 实用价值: ⭐⭐⭐⭐ — 对社交机器人、人机交互、情感计算等领域有重要推动作用

相关论文