跳转至

HOI-IDiff: An Image-like Diffusion Method for Human-Object Interaction Detection

会议: CVPR 2025
机构: Lancaster University
arXiv: 2503.18134
关键词: 人物交互检测、扩散模型、多项式扩散、HOI Image

研究背景与动机

人-物交互检测(Human-Object Interaction Detection, HOI Detection)是场景理解的核心任务,旨在从图像中检测 <人, 交互动作, 物体> 三元组。例如,"一个人在骑自行车"需要识别人、自行车以及"骑"这个交互关系。

传统HOI检测方法(如QPIC、CDN)通常基于Transformer解码器,使用一组可学习的query来预测HOI三元组。这种方法的问题是:query数量固定,难以处理交互数量变化较大的场景;且一次性预测缺乏迭代优化的能力。

近年来,扩散模型在生成任务中展现了卓越的迭代去噪能力。能否将扩散模型应用于HOI检测?现有尝试(如DiffHOI)直接在bounding box坐标上做扩散,但效果有限,因为: 1. HOI的核心不在于精确的框坐标,而在于谁和谁在做什么 2. 连续高斯扩散对类别型输出(如交互类型)不自然 3. 缺少利用检测器先验的机制

HOI-IDiff的核心创新在于:将HOI三元组重新编码为一种"图像",然后在这个图像上应用专门设计的多项式扩散。

方法详解

核心创新1:HOI Image构造

将每个场景的所有HOI关系编码为一张 \(H imes W imes 2\) 的概率图像:

\[I_{ ext{HOI}}[h, w, :] = v_{ ext{obj}}(h) \otimes m_{ ext{int}}(w)\]

其中: - \(H\) = 场景中的人-物对数量 - \(W\) = 交互类别数量(HICO-DET为117类) - 通道0:物体类别概率 \(v_{ ext{obj}} \in \Delta^{|\mathcal{O}|}\)(单纯形上的概率分布) - 通道1:交互类型概率 \(m_{ ext{int}} \in \{0, 1\}^{|\mathcal{A}|}\)(多标签二进制指示)

直觉理解:HOI Image的每一行对应一个人-物对,每一列对应一种交互,像素值表示该交互发生的概率。这种表示将结构化预测转换为了图像生成问题。

核心创新2:多项式扩散

标准高斯扩散对连续数据添加高斯噪声,但HOI Image的每个像素是概率值(和为1),高斯噪声会破坏这一约束。

多项式扩散的前向过程:

\[q(x_t | x_{t-1}) = ext{Cat}(x_t; (1 - eta_t) x_{t-1} + eta_t / K)\]

其中 \(K\) 是类别数。关键差异: - 系数是 \((1-eta_k)\) 而不是 \(\sqrt{1-eta_k}\) - 噪声项是均匀分布 \(1/K\) 而不是高斯分布 - 始终保持概率和为1

特性 高斯扩散 多项式扩散
数据类型 连续值 概率分布
噪声类型 高斯 \(\mathcal{N}(0,1)\) 均匀 \(1/K\)
前向系数 \(\sqrt{1-eta_t}\) \((1-eta_t)\)
概率约束 始终满足 \(\sum=1\)
终态 \(\mathcal{N}(0,I)\) 均匀分布

核心创新3:Slice Patchification

传统ViT将图像切分为局部patch(如16×16),但HOI Image的语义结构不同——每一行是完整的人-物对信息,每一列是完整的交互类型信息。局部patch会破坏这种行-列语义。

Slice Patchification提出切片式分块: - 水平切片\(H\) 个宽为 \(W\) 的行向量(每个切片是一个完整的人-物对) - 垂直切片\(W\) 个高为 \(H\) 的列向量(每个切片是一个完整的交互类型)

两组切片分别送入Transformer处理后融合。这保证了行内和列内的全局依赖,同时通过交叉注意力建立行-列之间的关系。

核心创新4:检测器先验初始化

标准扩散从纯噪声开始去噪,但HOI检测可以利用目标检测器(如DETR)的输出作为先验:

\[x_T = (1 - lpha) \cdot ext{Uniform} + lpha \cdot ext{DetectorPrior}\]

检测器先验提供了初始的人-物配对猜测,大幅减少了去噪步数。

实验结果

HICO-DET

方法 Full mAP Rare mAP Non-Rare mAP
QPIC 29.07 21.85 31.23
CDN 32.07 27.19 33.53
GEN-VLKT 33.75 29.25 35.10
HOICLIP 34.69 31.12 35.74
标准扩散 baseline 42.50 40.12 43.21
HOI-IDiff 47.71 48.36 47.52

V-COCO

方法 Scenario 1 Scenario 2
QPIC 58.8 61.0
CDN 63.9 65.9
HOICLIP 66.2 68.5
HOI-IDiff 73.4 76.1

消融实验

配置 HICO-DET Full mAP
标准高斯扩散 42.50
+ 多项式扩散 44.23
+ Slice Patchification 45.89
+ 检测器先验 46.84
+ 全部优化 47.71

从42.50到47.71的逐步提升验证了每个组件的贡献。

方法分析

为什么Slice Patchification有效?

传统patch打断了HOI Image的行-列语义结构。例如,一个16×16的patch包含了16个人-物对的部分交互信息——既不完整表示任何一个人-物对,也不完整表示任何一种交互。Slice则保证了语义单元的完整性。

为什么多项式扩散比高斯扩散好?

HOI Image的像素是概率分布,高斯噪声会产生负值和非归一化值,需要额外的归一化步骤。多项式扩散在整个过程中保持概率约束,生成的中间结果都是有效的概率分布。

局限性

  • HOI Image的大小随场景中人-物对数量变化,批处理需要padding
  • 多项式扩散的去噪步数仍然较多(通常100步)
  • 在密集交互场景(>50个人-物对)上的效率有待优化

总结

HOI-IDiff通过将HOI检测重新定义为"概率图像生成"问题,巧妙地利用了扩散模型的迭代优化能力。多项式扩散、Slice Patchification和检测器先验三大创新协同工作,在HICO-DET和V-COCO上均达到了新的SOTA。这种"将结构化预测转化为图像生成"的思路具有广泛的启发意义。

相关论文