跳转至

Text2Place: Affordance-Aware Text Guided Human Placement

会议: ECCV 2024
arXiv: 2407.15446
代码: 有(项目页面)
领域: LLM/NLP
关键词: human placement, affordance, score distillation sampling, text-to-image, inpainting

一句话总结

提出 Text2Place,通过 SDS 损失优化 Gaussian blob 参数化的语义掩码学习场景中的人体 affordance,再结合主体条件修复实现逼真的文本引导人物放置,无需大规模训练。

研究背景与动机

领域现状

领域现状:给定背景场景,人类能轻松推理出人物可放置的位置和姿态——这就是 affordance

现有痛点

现有痛点:现有方法的局限:

核心矛盾

核心矛盾:Kulal et al. 需要在给定 bounding box 中放置人物,无法推理全局 affordance

解决思路

解决思路:Ramrakhya et al. 需要大规模成对数据集训练

补充说明

补充说明:SmartMask 需要大规模训练扩散模型预测掩码

补充说明

补充说明:核心挑战: 1. 缺乏标注 affordance 的数据集(现有数据集只描述已存在的物体) 2. 如何在不进行大规模训练的情况下学习场景中的人物 affordance 3. 放置后需要保持背景完整性和主体身份

方法详解

整体框架

两阶段方法: 1. 语义掩码优化:利用 T2I 模型的 SDS 损失优化 blob 参数化的语义掩码 2. 主体条件修复:使用 Textual Inversion 学习主体 token,结合 T2I 修复管线实现身份保持的人物放置

关键设计

1. Gaussian Blob 掩码参数化

  • 直接在像素空间优化语义掩码会导致崩溃(覆盖整张图像)
  • 创新参数化:K 个相连的高斯椭球 blob
  • 每个 blob 的参数:中心位置 x、缩放 s、长宽比 a、旋转角 θ
  • blob 间通过固定距离 r 和相对角度 α 连接
  • x_i = x_{i-1} + [r·cos(α_i), r·sin(α_i)]
  • 可渲染为可微分的 Mahalanobis 距离掩码图

2. SDS 驱动的语义掩码优化

  • 设立可学习的前景人物图像 I_p(初始化为背景副本)
  • 每步迭代:I_c = I_p ⊙ M + I_b ⊙ (1-M)
  • 对 I_c 加噪后通过 T2I 模型计算 SDS 损失(动作提示如 "a person sitting on sofa")
  • 梯度回传更新掩码参数和 I_p
  • 训练中仅优化:第一个 blob 中心 x_1、所有旋转角 θ_i、相对角度 α_i
  • 固定 s、a、r 得到更好的收敛

3. 主体条件修复

  • 使用 Textual Inversion 从 3-5 张主体图像学习 token 嵌入 V*
  • 修复提示:"A V* person sitting on a sofa"
  • 关键发现:T2I 修复管线需要粗糙语义掩码(而非精确掩码)
    • 精确掩码过于严格,T2I 修复管线难以成功
    • Blob 参数化天然产生粗糙掩码,恰好适配修复需求

损失函数 / 训练策略

  • SDS 损失:guidance scale = 200
  • 优化 1000 次迭代
  • c = 0.02 控制每个 blob 的锐度
  • 默认 blob 数量 K=5,scale s=0.6
  • Textual Inversion:3-5 张主体图像

实验关键数据

主实验

方法 LPIPS ↓ CLIP-sim ↑ % Person ↑
GracoNet 0.1090 0.2601 53.48
TopNet 0.1162 0.2617 67.3
LLaVA 0.1296 0.2501 20.91
GPT-4V 0.1059 0.2615 64.18
Ours (center only) 0.0845 0.2613 55.52
Ours 0.0934 0.2726 88.55

消融实验

Blob scale 消融

Scale LPIPS ↓ CLIP-sim ↑ % Person ↑
0.3 0.0537 0.2594 41.1
0.5 0.0858 0.2712 81.5
0.6 0.0904 0.2736 90.6
0.7 0.1074 0.2729 96.0

Blob 数量消融:K=5 是最优选择

关键发现

  • 88.55% 的图像成功生成了人物(% Person),远超所有基线
  • GPT-4V 等 VLM 虽有多模态推理能力,但预测的 bounding box 位置和大小通常不准确
  • 掩码形状比位置更重要:Ours (center) 位置正确但形状不对,导致姿态不自然
  • 粗糙掩码反而比精确掩码更适合 T2I 修复——给模型留出调整空间
  • 方法泛化到人物以外的物体(椅子、花盆等)同样有效

亮点与洞察

  1. 无需大规模训练:仅通过 SDS 测试时优化即可学习 affordance,是高效的零样本方法
  2. Blob 参数化精妙:约束了掩码形状空间,防止崩溃;粗糙性恰好适配修复需求
  3. 丰富的下游应用:人物幻想、场景幻想、多人放置、文本编辑、儿童放置
  4. T2I 修复管线需要粗糙掩码的发现非常实用
  5. 问题定义(Semantic Human Placement)本身是创新性贡献

局限与展望 / 可改进方向

  • SDS 优化需要 1000 次迭代,每张图像约需几分钟
  • 依赖 Textual Inversion 的身份保持质量,3-5 张图可能不足
  • Blob 参数化限制了复杂姿态(如躺下、弯腰)的掩码表示
  • 固定 s、a、r 的策略限制了不同体型的自适应
  • 评估数据集仅 30 张背景图 + 15 个名人主体,规模较小

相关工作与启发

  • DreamFusion/SDS: SDS 损失从 3D 生成迁移到 2D 掩码优化
  • Textual Inversion: 主体个性化的基础
  • Kulal et al.: 局部人物 affordance 学习
  • Gaussian Splatting: Blob 参数化的灵感来源
  • 启发:T2I 模型中隐式编码的物体-场景组合知识可以通过 SDS 提取,而不仅限于 3D 生成

评分

维度 分数 (1-10)
新颖性 9
技术深度 7
实验充分性 7
实用价值 8
写作质量 8
总体评分 7.8

相关论文