跳转至

Rethink Sparse Signals for Pose-guided Text-to-Image Generation

会议: ICCV 2025
arXiv: 2506.20983
代码: GitHub(文中提及 "Codes are available")
领域: 图像生成 / 姿态引导 / 空间可控生成
关键词: ControlNet, OpenPose, Sparse Signal, Keypoint Concept Learning, Pose-guided Generation

一句话总结

提出 SP-Ctrl(Spatial-Pose ControlNet),通过可学习空间姿态表示(SPR)替换 OpenPose 的固定 RGB 编码,并引入关键点概念学习(KCL)策略利用交叉注意力热力图约束增强关键点对齐,使稀疏姿态信号达到与密集信号(深度图/DensePose)相当的姿态控制精度,同时保持图像多样性和跨物种生成能力。

研究背景与动机

问题背景

姿态引导的文生图生成(Pose-guided T2I)是可控图像生成的重要任务。近年来研究趋向使用密集信号(深度图、法线图、DensePose、SMPL)提供精确的空间引导,因为稀疏信号(如 OpenPose)被认为控制力不足。

密集信号的弊端

灵活性差:密集信号通常从参考图像提取,限制了新条件的创建和编辑

与文本提示矛盾:密集信号强约束物体形状和轮廓,若与文本描述冲突则产生不良结果

稀疏信号的三大优势

形状无关:关键点是物体的解剖抽象,不限定具体形状

类别无关:关键点定义跨物种共享(如哺乳动物的关键点拓扑结构相似)

可操作性:不依赖参考图像,创建和编辑自由度高

两个关键瓶颈

作者发现稀疏信号精度不足的两个根本原因:

OpenPose 表示本身的局限:OpenPose 原为可视化设计,其 RGB 颜色编码语义信息有限,甚至会混淆不同关键点的感知

稀疏性带来的空间对齐困难:点状和线状的稀疏信号使模型难以感知和跟随空间指令

方法详解

整体框架

SP-Ctrl 基于 Stable Diffusion v1.5 + ControlNet 架构,包含三个核心组件: 1. 空间姿态嵌入模块(SPR)——将 OpenPose 的固定 RGB 嵌入扩展为可学习嵌入 2. 关键点概念学习(KCL)——通过文本嵌入 + 热力图约束增强关键点空间对齐 3. 冻结 SD 模型 + ControlNet adapter 作为基础可控扩散架构

关键设计一:空间姿态表示(Spatial-Pose Representation, SPR)

将固定的 RGB 关键点嵌入扩展为可学习嵌入

\[\boldsymbol{E}_{kpt} = \mathcal{G}(\boldsymbol{E}_0; \phi)\]

其中 \(\boldsymbol{E}_0 = \{\boldsymbol{e}_k \in \mathbb{R}^{1 \times C}\}_{k=1}^N\) 是随机初始化的固定向量,\(\mathcal{G}(\cdot; \phi)\) 是参数化的 MLP 嵌入模块。骨骼嵌入用全 1 向量 \(\boldsymbol{e}_{sks} = \mathbf{1}^{1 \times C'}\) 表示。

关键发现: - 随机初始化优于文本嵌入初始化(mAP 高 0.88%)——文本嵌入空间与空间姿态表示存在差异 - 固定输入 + 可学习映射优于全可学习设计——优化更稳定 - 一维嵌入即可达到竞争力——SPR 的表达能力足够强

最终将学到的嵌入渲染为多通道(\(C'\) 通道)骨架姿态图像 \(\boldsymbol{I}_{sp} \in \mathbb{R}^{H \times W \times C'}\) 作为空间引导条件。

关键设计二:关键点概念学习(Keypoint Concept Learning, KCL)

受交叉注意力图与名词空间响应的相关性启发,KCL 引入新的文本 token 来学习关键点概念:

  1. 引入关键点 token:为每个关键点添加新的可学习文本嵌入 \(\mathcal{V}_{kpt} = \{\boldsymbol{v}_i^* \in \mathbb{R}^{768}\}_{i=1}^N\),附加到文本提示末尾
  2. 热力图约束:提取关键点 token 对应的交叉注意力图 \(\mathcal{M}_{kpt}\),约束其与关键点位置热力图 \(\mathcal{H}\) 对齐:
\[\mathcal{L}_{ht} = \frac{1}{|\mathcal{M}_{kpt}|} \cdot \frac{1}{H'W'} \sum_{v_i \geq 1} \|(\mathcal{M}_i - \mathcal{H}_i)\|^2\]
  1. 关键设计:从 noisy image query \(Q\) 处 detach 梯度,避免外观坍塌

训练目标

联合优化 SPR 嵌入模块、关键点文本嵌入和 ControlNet adapter:

\[\phi^*, \boldsymbol{V}_{kpt}^*, \Theta^* = \arg\min_{\phi, v_i^*, \Theta} \mathcal{L}_{ldm} + \eta \cdot \mathcal{L}_{ht}\]

其中 \(\eta = 0.1\)。关键时间步和 Transformer 块的选择:第 3 个 Transformer 块在 250–500 时间步的注意力图最关键。

实验

实验设置

  • 模型:SD v1.5 + ControlNet(从头训练 adapter)
  • 数据集:AP-10K(动物,54 物种,17 关键点)、Human-Art(人类,50K 图像)
  • 指标:Pose mAP(ViTPose++检测OKS-mAP)、CLIP-Score、FID、Detection AP.75

主实验:AP-10K 动物姿态引导生成

方法 Pose mAP↑ FID↓ CLIP-Score↑ Det AP.75↑
T2I-Adapter 48.16 27.29 25.52 24.23
ControlNet 44.25 19.40 24.77 24.35
SP-Ctrl (Ours) 55.63 18.52 23.86 25.10

SP-Ctrl 在姿态对齐上超越 ControlNet 11.38 mAP,同时 FID 也有提升。

主实验:Human-Art 人体姿态引导生成

方法 Pose mAP↑ FID↓ CLIP-Score↑ Det AP.75↑
ControlNet 45.26 26.69 27.84 8.18
HumanSD† 49.92 35.18 27.35 8.29
GRPose† 50.93 28.85 27.95 6.51
SP-Ctrl (Ours) 51.11 29.30 25.94 9.11

SP-Ctrl 达到 SOTA(GRPose 水平的 mAP),且不需要额外预训练的姿态估计器

消融实验:各模块贡献

方法 Pose mAP↑ FID↓
ControlNet(基线) 44.25 19.40
+ Spatial Pose 52.85 19.67
+ KCL 51.34 18.94
SP-Ctrl(两者结合) 55.63 18.52

两个模块各自贡献 +8.60 和 +7.09 的 mAP 提升,结合后达到最优 55.63,且 FID 也最优。

消融实验:KCL 关键时间步

时间步范围 Pose mAP↑ CLIP-Score↑
0–250 ~48 ~24.2
250–500 ~53 ~24.8
500–750 ~49 ~24.0
750–999 ~44 ~24.0

250–500 时间步对形成关键点概念最关键,750–999 几乎无效——揭示了去噪过程中概念形成的时间动态。

与密集信号的对比

SP-Ctrl 使用稀疏信号达到了接近密集信号(深度图)的姿态控制精度,同时在图像多样性跨物种泛化方面具有明显优势。

亮点与洞察

  • 重新审视稀疏信号的价值:证明稀疏信号经过合理设计可以达到密集信号的控制精度,同时保持灵活性和泛化性
  • 可学习嵌入替换固定 RGB:简单但有效,揭示了 OpenPose 的 RGB 编码甚至不如随机初始化
  • KCL 的巧妙设计:通过 textual inversion 的思路将关键点语义注入文本空间,再用热力图约束保证空间对齐
  • 跨物种生成能力:稀疏信号的类别无关性使得一个模型可以在不同动物物种间迁移

局限性

  • 基于 SD v1.5 实验,未验证在新一代模型(如 SDXL、FLUX)上的效果
  • 新引入的关键点 token 导致 CLIP-Score 略有下降(因推理时评估器不识别新 token)
  • 仅验证了 17 个关键点的场景,对更多/更少关键点的泛化性未探索
  • 骨骼嵌入使用简单的全 1 向量,可能限制了骨骼拓扑信息的利用

相关工作

  • 空间可控扩散模型:ControlNet、T2I-Adapter、GLIGEN 等 adapter 注入方法
  • 姿态引导生成:HumanSD(感知损失)、GRPose(图学习)等增强稀疏信号的方法
  • 密集条件方法:DensePose、SMPL、深度图等提供精确空间约束

评分

  • 新颖性:⭐⭐⭐⭐ — 对稀疏信号的重新思考有独到见解,KCL 设计巧妙
  • 技术深度:⭐⭐⭐⭐ — SPR 和 KCL 的设计与消融都很扎实
  • 实验充分度:⭐⭐⭐⭐ — 动物和人体两个数据集,丰富的消融研究
  • 实用价值:⭐⭐⭐⭐ — 稀疏信号的灵活性在实际应用中优势明显

Rethink Sparse Signals for Pose-guided Text-to-Image Generation

会议: ICCV 2025
arXiv: 2506.20983
代码: GitHub (论文提及 "Codes are available here")
领域: 图像生成 / 姿态引导生成 / ControlNet
关键词: Sparse Pose, OpenPose, ControlNet, Keypoint Concept Learning, Spatial Controllable Generation

一句话总结

提出 SP-Ctrl(Spatial-Pose ControlNet),通过可学习空间姿态表示(SPR)和关键点概念学习(KCL)两个核心策略,使稀疏信号(OpenPose)在姿态引导文生图任务中达到与稠密信号(深度图、DensePose)相当的姿态对齐精度,同时保留稀疏信号在多样性生成和跨物种泛化上的天然优势。

研究背景与动机

问题背景

姿态引导文生图(T2I)生成是一个重要任务,涉及人体/动物中心的图像生成、动画驱动和条件 3D 生成等应用。近期方法倾向使用稠密信号(depth map、normal map、DensePose、SMPL)来获得更精确的姿态控制。然而稠密信号存在明显缺陷: 1. 不灵活:通常需要从参考图像提取,难以创建和编辑 2. 与文本矛盾:对物体形状和轮廓施加强约束,可能与文本提示冲突导致生成质量下降

稀疏信号的优势

  • 形状无关:作为解剖学抽象,不限制具体形态
  • 类别无关:关键点定义在物种间共享(如哺乳动物),提供统一姿态表示
  • 可操作性:不依赖参考图像,创建和编辑自由度高

核心挑战

稀疏信号(如 OpenPose)的姿态控制精度远不如稠密信号——关键问题在于: 1. OpenPose 本为可视化设计:RGB 颜色编码几乎不提供有效信息,甚至可能混淆关键点的区分 2. 稀疏性导致空间感知困难:点状和线段指令对模型来说难以精确感知和跟随

方法详解

整体框架

SP-Ctrl 构建在 Stable Diffusion v1.5 + ControlNet 之上,包含三个组件:(1) 空间姿态嵌入模块渲染学习后的空间姿态表示;(2) 可学习关键点文本嵌入用于关键点概念学习;(3) ControlNet adapter 注入空间条件到冻结的 SD 模型。

关键设计一:Spatial-Pose Representation (SPR)

将 OpenPose 的固定 RGB 关键点颜色替换为可学习嵌入。具体地,空间姿态嵌入模块 \(\mathcal{G}(\cdot; \phi)\) 将随机初始化向量 \(\boldsymbol{E}_0 = \{\boldsymbol{e}_k \in \mathbb{R}^{1 \times C}\}_{k=1}^N\) 映射为关键点嵌入:

\[\boldsymbol{E}_{kpt} = \mathcal{G}(\boldsymbol{E}_0; \phi)\]

\(\mathcal{G}\) 是由堆叠线性层和 LayerNorm 组成的 MLP,其参数 \(\phi\) 通过去噪任务的梯度自适应优化。骨架嵌入设为全 1 向量 \(\boldsymbol{e}_{sks} = \mathbf{1}^{1 \times C'}\)。最终渲染多通道骨架姿态图 \(\boldsymbol{I}_{sp} \in \mathbb{R}^{H \times W \times C'}\) 作为 ControlNet 输入。

关键发现: - 随机初始化 >> 文本嵌入初始化(mAP 高 0.88%,因文本和空间表示空间存在差异) - 固定 \(\boldsymbol{E}_0\) + 可学习 \(\mathcal{G}\) >> 可学习 \(\boldsymbol{E}_0\)(更稳定的优化) - 甚至 1 通道嵌入就能取得竞争性表现——说明学习后的表示高度富有表达力

关键设计二:Keypoint Concept Learning (KCL)

受交叉注意力图与关键点位置的空间关联性启发,引入可学习关键点 token 并通过热图约束增强注意力对齐:

  1. 引入关键点 token:为每个关键点描述(如 eye、nose、elbow)添加新文本 token \(\{\langle \boldsymbol{k}_i \rangle\}_{i=1}^N\),对应可学习嵌入 \(\mathcal{V}_{kpt} = \{\boldsymbol{v}^*_i \in \mathbb{R}^{768}\}_{i=1}^N\)

  2. 热图约束损失:提取交叉注意力图 \(\mathcal{M}_{kpt}\),鼓励其与关键点高斯热图 \(\mathcal{H}\) 对齐:

\[\mathcal{L}_{ht} = \frac{1}{|\mathcal{M}_{kpt}|} \cdot \frac{1}{H'W'} \sum_{v_i \geq 1} \|(\mathcal{M}_i - \mathcal{H}_i)\|^2\]
  1. 梯度截断:对 noisy image query \(Q\) 的梯度进行 detach 以避免信息泄露导致的外观坍塌

训练目标

联合优化空间嵌入模块、关键点嵌入和 ControlNet adapter:

\[\phi^*, \boldsymbol{V}_{kpt}^*, \Theta^* = \arg\min_{\phi, v_i^*, \Theta} \mathcal{L}_{ldm} + \eta \cdot \mathcal{L}_{ht}\]

其中 \(\eta = 0.1\),热图约束仅在 250∼500 时间步、U-Net 第 3 个 Transformer block 上计算。

实验

主实验结果

数据集 方法 Pose mAP↑ FID↓ CLIP-Score↑ Detection AP.75↑
AP-10K T2I-Adapter 48.16 27.29 25.52 24.23
AP-10K ControlNet 44.25 19.40 24.77 24.35
AP-10K SP-Ctrl 55.63 18.52 23.86 25.10
Human-Art ControlNet 45.26 26.69 27.84 8.18
Human-Art HumanSD† 49.92 35.18 27.35 8.29
Human-Art GRPose† 50.93 28.85 27.95 6.51
Human-Art SP-Ctrl 51.11 29.30 25.94 9.11

在 AP-10K 上 SP-Ctrl 的姿态 mAP 比 ControlNet 基线提升 11.38%,FID 低 0.88;在 Human-Art 上达到与 SOTA GRPose 相当的 mAP(51.11 vs 50.93),无需额外预训练姿态估计器

消融实验

方法 Pose mAP↑ FID↓ CLIP-Score↑
ControlNet (baseline) 44.25 19.40 24.77
+ Spatial Pose (SPR) 52.85 19.67 24.62
+ KCL 51.34 18.94 24.09
SP-Ctrl (两者结合) 55.63 18.52 23.86

SPR 单独提升 8.60% mAP,KCL 单独提升 7.09% mAP,两者结合时效果叠加,达到最优 55.63%。

KCL 细粒度消融

组件 mAP↑
ControlNet + OpenPose (baseline) 44.25
+ \(\mathcal{V}_{kpt}\) (仅关键点token) 50.38
+ \(\mathcal{V}_{kpt}\) + \(\mathcal{L}_{ht}\) (热图约束) 51.34

关键点 token 本身提升 6.13%,热图约束进一步提升。时间步 250∼500 对概念形成最关键;U-Net 第 3 个 Transformer block 的注意力图贡献最大。

稀疏 vs 稠密信号对比

SP-Ctrl 使用稀疏信号达到的 mAP 与稠密信号(depth map)方法可比,同时在图像多样性跨物种泛化上具有天然优势——同一套稀疏关键点可驱动不同物种的生成。

亮点与洞察

  • 重新审视稀疏信号的价值:在稠密信号主导的趋势中,证明稀疏信号经过合理增强后可达到竞争性精度,同时保留形状/类别无关的优势
  • OpenPose 颜色编码的负面影响:实验证明固定 RGB 颜色甚至会混淆关键点识别,学习后的嵌入即使只有 1 个通道也更有效
  • 利用交叉注意力的空间对应性:发现去噪 U-Net 的 cross-attention 自然与关键点位置存在空间对齐,通过热图约束显式强化这一对应
  • 极低额外推理开销:SPR 和 KCL 在推理时几乎不增加计算量(SPR 只是替换输入表示,KCL 只添加少量 text token)
  • 跨物种泛化:同一模型可从鱼类关键点生成鸟类图像,展现稀疏信号的类别无关性

局限性

  • 基于 SD v1.5,未在更新的扩散模型架构上验证
  • CLIP-Score 由于去除了新引入的关键点 token 而略有下降(约 0.68),虽然视觉质量良好
  • 关键点定义仍需预先指定,无法自动发现新类别的关键点
  • 在遮挡严重或关键点缺失较多的情况下表现未详细分析

相关工作

  • 空间可控 T2I:ControlNet、T2I-Adapter、GLIGEN
  • 姿态引导信号:OpenPose(稀疏)、DensePose/SMPL(稠密)、图学习(GRPose)
  • 姿态增强策略:HumanSD(感知损失)、GRPose(图学习)、SpaText(可学习嵌入)

评分

  • 新颖性:⭐⭐⭐⭐ — 重新审视稀疏信号并提出两个简洁有效的增强策略
  • 技术深度:⭐⭐⭐⭐ — 对 OpenPose 编码问题和注意力机制的分析深入
  • 实验充分度:⭐⭐⭐⭐ — 动物+人体两个数据集,详尽的消融实验
  • 实用价值:⭐⭐⭐⭐ — 推理无额外开销,与 ControlNet 兼容,跨物种泛化性好

相关论文