Rethink Sparse Signals for Pose-guided Text-to-Image Generation¶

会议: ICCV 2025
arXiv: 2506.20983
代码: GitHub（文中提及 "Codes are available"）
领域: 图像生成 / 姿态引导 / 空间可控生成
关键词: ControlNet, OpenPose, Sparse Signal, Keypoint Concept Learning, Pose-guided Generation

一句话总结¶

提出 SP-Ctrl（Spatial-Pose ControlNet），通过可学习空间姿态表示（SPR）替换 OpenPose 的固定 RGB 编码，并引入关键点概念学习（KCL）策略利用交叉注意力热力图约束增强关键点对齐，使稀疏姿态信号达到与密集信号（深度图/DensePose）相当的姿态控制精度，同时保持图像多样性和跨物种生成能力。

研究背景与动机¶

问题背景¶

姿态引导的文生图生成（Pose-guided T2I）是可控图像生成的重要任务。近年来研究趋向使用密集信号（深度图、法线图、DensePose、SMPL）提供精确的空间引导，因为稀疏信号（如 OpenPose）被认为控制力不足。

密集信号的弊端¶

灵活性差：密集信号通常从参考图像提取，限制了新条件的创建和编辑

与文本提示矛盾：密集信号强约束物体形状和轮廓，若与文本描述冲突则产生不良结果

稀疏信号的三大优势¶

形状无关：关键点是物体的解剖抽象，不限定具体形状

类别无关：关键点定义跨物种共享（如哺乳动物的关键点拓扑结构相似）

可操作性：不依赖参考图像，创建和编辑自由度高

两个关键瓶颈¶

作者发现稀疏信号精度不足的两个根本原因：

OpenPose 表示本身的局限：OpenPose 原为可视化设计，其 RGB 颜色编码语义信息有限，甚至会混淆不同关键点的感知

稀疏性带来的空间对齐困难：点状和线状的稀疏信号使模型难以感知和跟随空间指令

方法详解¶

整体框架¶

SP-Ctrl 基于 Stable Diffusion v1.5 + ControlNet 架构，包含三个核心组件： 1. 空间姿态嵌入模块（SPR）——将 OpenPose 的固定 RGB 嵌入扩展为可学习嵌入 2. 关键点概念学习（KCL）——通过文本嵌入 + 热力图约束增强关键点空间对齐 3. 冻结 SD 模型 + ControlNet adapter 作为基础可控扩散架构

关键设计一：空间姿态表示（Spatial-Pose Representation, SPR）¶

将固定的 RGB 关键点嵌入扩展为可学习嵌入：

\[\boldsymbol{E}_{kpt} = \mathcal{G}(\boldsymbol{E}_0; \phi)\]

其中 \(\boldsymbol{E}_0 = \{\boldsymbol{e}_k \in \mathbb{R}^{1 \times C}\}_{k=1}^N\) 是随机初始化的固定向量，\(\mathcal{G}(\cdot; \phi)\) 是参数化的 MLP 嵌入模块。骨骼嵌入用全 1 向量 \(\boldsymbol{e}_{sks} = \mathbf{1}^{1 \times C'}\) 表示。

关键发现： - 随机初始化优于文本嵌入初始化（mAP 高 0.88%）——文本嵌入空间与空间姿态表示存在差异 - 固定输入 + 可学习映射优于全可学习设计——优化更稳定 - 一维嵌入即可达到竞争力——SPR 的表达能力足够强

最终将学到的嵌入渲染为多通道（\(C'\) 通道）骨架姿态图像 \(\boldsymbol{I}_{sp} \in \mathbb{R}^{H \times W \times C'}\) 作为空间引导条件。

关键设计二：关键点概念学习（Keypoint Concept Learning, KCL）¶

受交叉注意力图与名词空间响应的相关性启发，KCL 引入新的文本 token 来学习关键点概念：

引入关键点 token：为每个关键点添加新的可学习文本嵌入 \(\mathcal{V}_{kpt} = \{\boldsymbol{v}_i^* \in \mathbb{R}^{768}\}_{i=1}^N\)，附加到文本提示末尾
热力图约束：提取关键点 token 对应的交叉注意力图 \(\mathcal{M}_{kpt}\)，约束其与关键点位置热力图 \(\mathcal{H}\) 对齐：

\[\mathcal{L}_{ht} = \frac{1}{|\mathcal{M}_{kpt}|} \cdot \frac{1}{H'W'} \sum_{v_i \geq 1} \|(\mathcal{M}_i - \mathcal{H}_i)\|^2\]

关键设计：从 noisy image query \(Q\) 处 detach 梯度，避免外观坍塌

训练目标¶

联合优化 SPR 嵌入模块、关键点文本嵌入和 ControlNet adapter：

\[\phi^*, \boldsymbol{V}_{kpt}^*, \Theta^* = \arg\min_{\phi, v_i^*, \Theta} \mathcal{L}_{ldm} + \eta \cdot \mathcal{L}_{ht}\]

其中 \(\eta = 0.1\)。关键时间步和 Transformer 块的选择：第 3 个 Transformer 块在 250–500 时间步的注意力图最关键。

实验¶

实验设置¶

模型：SD v1.5 + ControlNet（从头训练 adapter）
数据集：AP-10K（动物，54 物种，17 关键点）、Human-Art（人类，50K 图像）
指标：Pose mAP（ViTPose++检测OKS-mAP）、CLIP-Score、FID、Detection AP.75

主实验：AP-10K 动物姿态引导生成¶

方法	Pose mAP↑	FID↓	CLIP-Score↑	Det AP.75↑
T2I-Adapter	48.16	27.29	25.52	24.23
ControlNet	44.25	19.40	24.77	24.35
SP-Ctrl (Ours)	55.63	18.52	23.86	25.10

SP-Ctrl 在姿态对齐上超越 ControlNet 11.38 mAP，同时 FID 也有提升。

主实验：Human-Art 人体姿态引导生成¶

方法	Pose mAP↑	FID↓	CLIP-Score↑	Det AP.75↑
ControlNet	45.26	26.69	27.84	8.18
HumanSD†	49.92	35.18	27.35	8.29
GRPose†	50.93	28.85	27.95	6.51
SP-Ctrl (Ours)	51.11	29.30	25.94	9.11

SP-Ctrl 达到 SOTA（GRPose 水平的 mAP），且不需要额外预训练的姿态估计器。

消融实验：各模块贡献¶

方法	Pose mAP↑	FID↓
ControlNet（基线）	44.25	19.40
+ Spatial Pose	52.85	19.67
+ KCL	51.34	18.94
SP-Ctrl（两者结合）	55.63	18.52

两个模块各自贡献 +8.60 和 +7.09 的 mAP 提升，结合后达到最优 55.63，且 FID 也最优。

消融实验：KCL 关键时间步¶

时间步范围	Pose mAP↑	CLIP-Score↑
0–250	~48	~24.2
250–500	~53	~24.8
500–750	~49	~24.0
750–999	~44	~24.0

250–500 时间步对形成关键点概念最关键，750–999 几乎无效——揭示了去噪过程中概念形成的时间动态。

与密集信号的对比¶

SP-Ctrl 使用稀疏信号达到了接近密集信号（深度图）的姿态控制精度，同时在图像多样性和跨物种泛化方面具有明显优势。

亮点与洞察¶

重新审视稀疏信号的价值：证明稀疏信号经过合理设计可以达到密集信号的控制精度，同时保持灵活性和泛化性
可学习嵌入替换固定 RGB：简单但有效，揭示了 OpenPose 的 RGB 编码甚至不如随机初始化
KCL 的巧妙设计：通过 textual inversion 的思路将关键点语义注入文本空间，再用热力图约束保证空间对齐
跨物种生成能力：稀疏信号的类别无关性使得一个模型可以在不同动物物种间迁移

局限性¶

基于 SD v1.5 实验，未验证在新一代模型（如 SDXL、FLUX）上的效果
新引入的关键点 token 导致 CLIP-Score 略有下降（因推理时评估器不识别新 token）
仅验证了 17 个关键点的场景，对更多/更少关键点的泛化性未探索
骨骼嵌入使用简单的全 1 向量，可能限制了骨骼拓扑信息的利用

评分¶

新颖性：⭐⭐⭐⭐ — 对稀疏信号的重新思考有独到见解，KCL 设计巧妙
技术深度：⭐⭐⭐⭐ — SPR 和 KCL 的设计与消融都很扎实
实验充分度：⭐⭐⭐⭐ — 动物和人体两个数据集，丰富的消融研究
实用价值：⭐⭐⭐⭐ — 稀疏信号的灵活性在实际应用中优势明显

Rethink Sparse Signals for Pose-guided Text-to-Image Generation¶

会议: ICCV 2025
arXiv: 2506.20983
代码: GitHub (论文提及 "Codes are available here")
领域: 图像生成 / 姿态引导生成 / ControlNet
关键词: Sparse Pose, OpenPose, ControlNet, Keypoint Concept Learning, Spatial Controllable Generation

一句话总结¶

提出 SP-Ctrl（Spatial-Pose ControlNet），通过可学习空间姿态表示（SPR）和关键点概念学习（KCL）两个核心策略，使稀疏信号（OpenPose）在姿态引导文生图任务中达到与稠密信号（深度图、DensePose）相当的姿态对齐精度，同时保留稀疏信号在多样性生成和跨物种泛化上的天然优势。

研究背景与动机¶

问题背景¶

姿态引导文生图（T2I）生成是一个重要任务，涉及人体/动物中心的图像生成、动画驱动和条件 3D 生成等应用。近期方法倾向使用稠密信号（depth map、normal map、DensePose、SMPL）来获得更精确的姿态控制。然而稠密信号存在明显缺陷： 1. 不灵活：通常需要从参考图像提取，难以创建和编辑 2. 与文本矛盾：对物体形状和轮廓施加强约束，可能与文本提示冲突导致生成质量下降

稀疏信号的优势¶

形状无关：作为解剖学抽象，不限制具体形态
类别无关：关键点定义在物种间共享（如哺乳动物），提供统一姿态表示
可操作性：不依赖参考图像，创建和编辑自由度高

核心挑战¶

稀疏信号（如 OpenPose）的姿态控制精度远不如稠密信号——关键问题在于： 1. OpenPose 本为可视化设计：RGB 颜色编码几乎不提供有效信息，甚至可能混淆关键点的区分 2. 稀疏性导致空间感知困难：点状和线段指令对模型来说难以精确感知和跟随

方法详解¶

整体框架¶

SP-Ctrl 构建在 Stable Diffusion v1.5 + ControlNet 之上，包含三个组件：(1) 空间姿态嵌入模块渲染学习后的空间姿态表示；(2) 可学习关键点文本嵌入用于关键点概念学习；(3) ControlNet adapter 注入空间条件到冻结的 SD 模型。

关键设计一：Spatial-Pose Representation (SPR)¶

将 OpenPose 的固定 RGB 关键点颜色替换为可学习嵌入。具体地，空间姿态嵌入模块 \(\mathcal{G}(\cdot; \phi)\) 将随机初始化向量 \(\boldsymbol{E}_0 = \{\boldsymbol{e}_k \in \mathbb{R}^{1 \times C}\}_{k=1}^N\) 映射为关键点嵌入：

\[\boldsymbol{E}_{kpt} = \mathcal{G}(\boldsymbol{E}_0; \phi)\]

\(\mathcal{G}\) 是由堆叠线性层和 LayerNorm 组成的 MLP，其参数 \(\phi\) 通过去噪任务的梯度自适应优化。骨架嵌入设为全 1 向量 \(\boldsymbol{e}_{sks} = \mathbf{1}^{1 \times C'}\)。最终渲染多通道骨架姿态图 \(\boldsymbol{I}_{sp} \in \mathbb{R}^{H \times W \times C'}\) 作为 ControlNet 输入。

关键发现： - 随机初始化 >> 文本嵌入初始化（mAP 高 0.88%，因文本和空间表示空间存在差异） - 固定 \(\boldsymbol{E}_0\) + 可学习 \(\mathcal{G}\) >> 可学习 \(\boldsymbol{E}_0\)（更稳定的优化） - 甚至 1 通道嵌入就能取得竞争性表现——说明学习后的表示高度富有表达力

关键设计二：Keypoint Concept Learning (KCL)¶

受交叉注意力图与关键点位置的空间关联性启发，引入可学习关键点 token 并通过热图约束增强注意力对齐：

引入关键点 token：为每个关键点描述（如 eye、nose、elbow）添加新文本 token \(\{\langle \boldsymbol{k}_i \rangle\}_{i=1}^N\)，对应可学习嵌入 \(\mathcal{V}_{kpt} = \{\boldsymbol{v}^*_i \in \mathbb{R}^{768}\}_{i=1}^N\)
热图约束损失：提取交叉注意力图 \(\mathcal{M}_{kpt}\)，鼓励其与关键点高斯热图 \(\mathcal{H}\) 对齐：

\[\mathcal{L}_{ht} = \frac{1}{|\mathcal{M}_{kpt}|} \cdot \frac{1}{H'W'} \sum_{v_i \geq 1} \|(\mathcal{M}_i - \mathcal{H}_i)\|^2\]

梯度截断：对 noisy image query \(Q\) 的梯度进行 detach 以避免信息泄露导致的外观坍塌

训练目标¶

联合优化空间嵌入模块、关键点嵌入和 ControlNet adapter：

\[\phi^*, \boldsymbol{V}_{kpt}^*, \Theta^* = \arg\min_{\phi, v_i^*, \Theta} \mathcal{L}_{ldm} + \eta \cdot \mathcal{L}_{ht}\]

其中 \(\eta = 0.1\)，热图约束仅在 250∼500 时间步、U-Net 第 3 个 Transformer block 上计算。

实验¶

主实验结果¶

数据集	方法	Pose mAP↑	FID↓	CLIP-Score↑	Detection AP.75↑
AP-10K	T2I-Adapter	48.16	27.29	25.52	24.23
AP-10K	ControlNet	44.25	19.40	24.77	24.35
AP-10K	SP-Ctrl	55.63	18.52	23.86	25.10
Human-Art	ControlNet	45.26	26.69	27.84	8.18
Human-Art	HumanSD†	49.92	35.18	27.35	8.29
Human-Art	GRPose†	50.93	28.85	27.95	6.51
Human-Art	SP-Ctrl	51.11	29.30	25.94	9.11

在 AP-10K 上 SP-Ctrl 的姿态 mAP 比 ControlNet 基线提升 11.38%，FID 低 0.88；在 Human-Art 上达到与 SOTA GRPose 相当的 mAP（51.11 vs 50.93），无需额外预训练姿态估计器。

消融实验¶

方法	Pose mAP↑	FID↓	CLIP-Score↑
ControlNet (baseline)	44.25	19.40	24.77
+ Spatial Pose (SPR)	52.85	19.67	24.62
+ KCL	51.34	18.94	24.09
SP-Ctrl (两者结合)	55.63	18.52	23.86

SPR 单独提升 8.60% mAP，KCL 单独提升 7.09% mAP，两者结合时效果叠加，达到最优 55.63%。

KCL 细粒度消融¶

组件	mAP↑
ControlNet + OpenPose (baseline)	44.25
+ \(\mathcal{V}_{kpt}\) (仅关键点token)	50.38
+ \(\mathcal{V}_{kpt}\) + \(\mathcal{L}_{ht}\) (热图约束)	51.34

关键点 token 本身提升 6.13%，热图约束进一步提升。时间步 250∼500 对概念形成最关键；U-Net 第 3 个 Transformer block 的注意力图贡献最大。

稀疏 vs 稠密信号对比¶

SP-Ctrl 使用稀疏信号达到的 mAP 与稠密信号（depth map）方法可比，同时在图像多样性和跨物种泛化上具有天然优势——同一套稀疏关键点可驱动不同物种的生成。

亮点与洞察¶

重新审视稀疏信号的价值：在稠密信号主导的趋势中，证明稀疏信号经过合理增强后可达到竞争性精度，同时保留形状/类别无关的优势
OpenPose 颜色编码的负面影响：实验证明固定 RGB 颜色甚至会混淆关键点识别，学习后的嵌入即使只有 1 个通道也更有效
利用交叉注意力的空间对应性：发现去噪 U-Net 的 cross-attention 自然与关键点位置存在空间对齐，通过热图约束显式强化这一对应
极低额外推理开销：SPR 和 KCL 在推理时几乎不增加计算量（SPR 只是替换输入表示，KCL 只添加少量 text token）
跨物种泛化：同一模型可从鱼类关键点生成鸟类图像，展现稀疏信号的类别无关性

局限性¶

基于 SD v1.5，未在更新的扩散模型架构上验证
CLIP-Score 由于去除了新引入的关键点 token 而略有下降（约 0.68），虽然视觉质量良好
关键点定义仍需预先指定，无法自动发现新类别的关键点
在遮挡严重或关键点缺失较多的情况下表现未详细分析

评分¶

新颖性：⭐⭐⭐⭐ — 重新审视稀疏信号并提出两个简洁有效的增强策略
技术深度：⭐⭐⭐⭐ — 对 OpenPose 编码问题和注意力机制的分析深入
实验充分度：⭐⭐⭐⭐ — 动物+人体两个数据集，详尽的消融实验
实用价值：⭐⭐⭐⭐ — 推理无额外开销，与 ControlNet 兼容，跨物种泛化性好

Rethink Sparse Signals for Pose-guided Text-to-Image Generation¶

一句话总结¶

研究背景与动机¶

问题背景¶

密集信号的弊端¶

稀疏信号的三大优势¶

两个关键瓶颈¶

方法详解¶

整体框架¶

关键设计一：空间姿态表示（Spatial-Pose Representation, SPR）¶

关键设计二：关键点概念学习（Keypoint Concept Learning, KCL）¶

训练目标¶

实验¶

实验设置¶

主实验：AP-10K 动物姿态引导生成¶

主实验：Human-Art 人体姿态引导生成¶

消融实验：各模块贡献¶

消融实验：KCL 关键时间步¶

与密集信号的对比¶

亮点与洞察¶

局限性¶

相关工作¶

评分¶

Rethink Sparse Signals for Pose-guided Text-to-Image Generation¶

一句话总结¶

研究背景与动机¶

问题背景¶

稀疏信号的优势¶

核心挑战¶

方法详解¶

整体框架¶

关键设计一：Spatial-Pose Representation (SPR)¶

关键设计二：Keypoint Concept Learning (KCL)¶

训练目标¶

实验¶

主实验结果¶

消融实验¶

KCL 细粒度消融¶

稀疏 vs 稠密信号对比¶

亮点与洞察¶

局限性¶

相关工作¶

评分¶

相关论文¶