HOI-IDiff: An Image-like Diffusion Method for Human-Object Interaction Detection¶

会议: CVPR 2025
机构: Lancaster University
arXiv: 2503.18134
关键词: 人物交互检测、扩散模型、多项式扩散、HOI Image

研究背景与动机¶

人-物交互检测（Human-Object Interaction Detection, HOI Detection）是场景理解的核心任务，旨在从图像中检测 <人, 交互动作, 物体> 三元组。例如，"一个人在骑自行车"需要识别人、自行车以及"骑"这个交互关系。

传统HOI检测方法（如QPIC、CDN）通常基于Transformer解码器，使用一组可学习的query来预测HOI三元组。这种方法的问题是：query数量固定，难以处理交互数量变化较大的场景；且一次性预测缺乏迭代优化的能力。

近年来，扩散模型在生成任务中展现了卓越的迭代去噪能力。能否将扩散模型应用于HOI检测？现有尝试（如DiffHOI）直接在bounding box坐标上做扩散，但效果有限，因为： 1. HOI的核心不在于精确的框坐标，而在于谁和谁在做什么 2. 连续高斯扩散对类别型输出（如交互类型）不自然 3. 缺少利用检测器先验的机制

HOI-IDiff的核心创新在于：将HOI三元组重新编码为一种"图像"，然后在这个图像上应用专门设计的多项式扩散。

方法详解¶

核心创新1：HOI Image构造¶

将每个场景的所有HOI关系编码为一张 \(H imes W imes 2\) 的概率图像：

\[I_{ ext{HOI}}[h, w, :] = v_{ ext{obj}}(h) \otimes m_{ ext{int}}(w)\]

其中： - \(H\) = 场景中的人-物对数量 - \(W\) = 交互类别数量（HICO-DET为117类） - 通道0：物体类别概率 \(v_{ ext{obj}} \in \Delta^{|\mathcal{O}|}\)（单纯形上的概率分布） - 通道1：交互类型概率 \(m_{ ext{int}} \in \{0, 1\}^{|\mathcal{A}|}\)（多标签二进制指示）

直觉理解：HOI Image的每一行对应一个人-物对，每一列对应一种交互，像素值表示该交互发生的概率。这种表示将结构化预测转换为了图像生成问题。

核心创新2：多项式扩散¶

标准高斯扩散对连续数据添加高斯噪声，但HOI Image的每个像素是概率值（和为1），高斯噪声会破坏这一约束。

多项式扩散的前向过程：

\[q(x_t | x_{t-1}) = ext{Cat}(x_t; (1 - eta_t) x_{t-1} + eta_t / K)\]

其中 \(K\) 是类别数。关键差异： - 系数是 \((1-eta_k)\) 而不是 \(\sqrt{1-eta_k}\) - 噪声项是均匀分布 \(1/K\) 而不是高斯分布 - 始终保持概率和为1

特性	高斯扩散	多项式扩散
数据类型	连续值	概率分布
噪声类型	高斯 \(\mathcal{N}(0,1)\)	均匀 \(1/K\)
前向系数	\(\sqrt{1-eta_t}\)	\((1-eta_t)\)
概率约束	无	始终满足 \(\sum=1\)
终态	\(\mathcal{N}(0,I)\)	均匀分布

核心创新3：Slice Patchification¶

传统ViT将图像切分为局部patch（如16×16），但HOI Image的语义结构不同——每一行是完整的人-物对信息，每一列是完整的交互类型信息。局部patch会破坏这种行-列语义。

Slice Patchification提出切片式分块： - 水平切片：\(H\) 个宽为 \(W\) 的行向量（每个切片是一个完整的人-物对） - 垂直切片：\(W\) 个高为 \(H\) 的列向量（每个切片是一个完整的交互类型）

两组切片分别送入Transformer处理后融合。这保证了行内和列内的全局依赖，同时通过交叉注意力建立行-列之间的关系。

核心创新4：检测器先验初始化¶

标准扩散从纯噪声开始去噪，但HOI检测可以利用目标检测器（如DETR）的输出作为先验：

\[x_T = (1 - lpha) \cdot ext{Uniform} + lpha \cdot ext{DetectorPrior}\]

检测器先验提供了初始的人-物配对猜测，大幅减少了去噪步数。

实验结果¶

HICO-DET¶

方法	Full mAP	Rare mAP	Non-Rare mAP
QPIC	29.07	21.85	31.23
CDN	32.07	27.19	33.53
GEN-VLKT	33.75	29.25	35.10
HOICLIP	34.69	31.12	35.74
标准扩散 baseline	42.50	40.12	43.21
HOI-IDiff	47.71	48.36	47.52

V-COCO¶

方法	Scenario 1	Scenario 2
QPIC	58.8	61.0
CDN	63.9	65.9
HOICLIP	66.2	68.5
HOI-IDiff	73.4	76.1

消融实验¶

配置	HICO-DET Full mAP
标准高斯扩散	42.50
+ 多项式扩散	44.23
+ Slice Patchification	45.89
+ 检测器先验	46.84
+ 全部优化	47.71

从42.50到47.71的逐步提升验证了每个组件的贡献。

方法分析¶

为什么Slice Patchification有效？¶

传统patch打断了HOI Image的行-列语义结构。例如，一个16×16的patch包含了16个人-物对的部分交互信息——既不完整表示任何一个人-物对，也不完整表示任何一种交互。Slice则保证了语义单元的完整性。

为什么多项式扩散比高斯扩散好？¶

HOI Image的像素是概率分布，高斯噪声会产生负值和非归一化值，需要额外的归一化步骤。多项式扩散在整个过程中保持概率约束，生成的中间结果都是有效的概率分布。

局限性¶

HOI Image的大小随场景中人-物对数量变化，批处理需要padding
多项式扩散的去噪步数仍然较多（通常100步）
在密集交互场景（>50个人-物对）上的效率有待优化

总结¶

HOI-IDiff通过将HOI检测重新定义为"概率图像生成"问题，巧妙地利用了扩散模型的迭代优化能力。多项式扩散、Slice Patchification和检测器先验三大创新协同工作，在HICO-DET和V-COCO上均达到了新的SOTA。这种"将结构化预测转化为图像生成"的思路具有广泛的启发意义。