跳转至

LACONIC: A 3D Layout Adapter for Controllable Image Creation

会议: ICCV 2025
arXiv: 2507.03257
代码: 无
领域: 3D视觉
关键词: 3D布局引导, 图像生成, 扩散模型适配器, 解耦交叉注意力, 场景编辑

一句话总结

提出 LACONIC,一种基于参数化 3D 语义包围盒的轻量级适配器,通过解耦交叉注意力机制将显式 3D 几何信息注入预训练 text-to-image 扩散模型,首次实现了相机控制、3D 物体级语义引导以及对屏幕外物体的全面场景上下文建模,在 FID 上比 SceneCraft 降低 75.8%。

研究背景与动机

问题定义

给定一个由 3D 语义包围盒组成的场景布局和目标相机视角,生成与 3D 结构一致、语义合理的单视图图像。同时支持对单个物体进行位置、旋转、大小和语义的独立编辑。

已有方法的不足

文本引导的局限:Text-to-image 模型难以通过文本精确传达复杂的空间和几何关系(如"书架内的书"),多物体场景的空间安排尤其困难

2D 条件的根本缺陷:2D 包围盒、语义图、深度图等条件本质上丢失了关键的 3D 信息: - 无法处理嵌套物体(如书在书架里) - 视角依赖性强,不同视角下同一场景的条件表征不一致 - 无法感知屏幕外物体(如窗外的光照影响室内)

现有 3D 感知方法的不足:SceneCraft 将 3D 包围盒投影为 2D 深度图和语义图再用 ControlNet,但最终条件仍在 2D 空间,限于固定类别集,且无法处理嵌套和遮挡。ControlRoom3D 和 Ctrl-Room 依赖全景图,Build-A-Scene 不能扩展到复杂场景。

核心动机

关键洞察:应该直接将显式的、视角无关的 3D 几何信息(参数化 3D 包围盒 + 自由文本描述)作为扩散模型的条件,而非先将 3D 投影到 2D 再编码。这样可以:(1) 保持跨视角的结构一致性;(2) 自然处理嵌套和遮挡;(3) 包含完整场景上下文(含屏幕外物体)。同时通过适配器架构保留预训练 T2I 模型的丰富先验。

方法详解

整体框架

输入 3D 布局 \(\mathcal{S}\) 和相机姿态 \(\mathcal{C}\)。可训练模块将每个物体的几何和语义属性编码为 token 序列,经 Transformer 编码器处理后,通过解耦交叉注意力注入冻结的 Stable Diffusion 骨干,引导去噪过程生成目标渲染。

关键设计

1. 参数化 3D 语义包围盒表示

  • 功能:定义直观且显式的 3D 场景条件表征
  • 核心思路:场景 \(\mathcal{S}\) 包含 \(N\) 个物体 \(\mathcal{O} = \{o_1, ..., o_N\}\) 和可选的室内平面图 \(\mathcal{F} \in \mathbb{R}^{P \times 3}\)。每个物体定义为"语义 3D 包围盒": $\(o_i = (p_i, d_i, R_i, s_i)\)$ 其中 \(p_i \in \mathbb{R}^3\) 为中心位置,\(d_i \in \mathbb{R}^3\) 为尺寸,\(R_i \in \mathbb{R}^{3 \times 3}\) 为旋转矩阵,\(s_i = [s_i^1, ..., s_i^M]\) 为自由格式文本描述(\(M\) 个 token)。

相机视角变换:将物体的空间参数从世界坐标系转换到相机坐标系: $\(p_i^{\mathcal{C}} = R_{\mathcal{C}}^\top(p_i - p_{\mathcal{C}}), \quad R_i^{\mathcal{C}} = R_{\mathcal{C}}^\top R_i\)$ 这个闭式变换在运行时执行,无需网络学习复杂的 3D→2D 映射。

  • 设计动机:视角无关的 3D 表示确保跨视角一致性。显式的相机变换将"在哪个视角看"的信息直接编码到空间特征中,避免网络负担。自由格式文本替代独热类别标签,支持开放词汇。

2. 3D 布局编码器 + 解耦交叉注意力

  • 功能:将 3D 布局编码为与扩散模型兼容的条件嵌入
  • 核心思路

物体编码:每个物体的空间特征(位置、尺寸、旋转)通过正弦位置编码 + 全连接层编码,语义描述通过预训练文本编码器 \(\tau_\theta\) 编码。拼接后生成每个物体的 token \(\mathcal{T}_{o_i}\)。可选的室内平面图通过 PointNet 编码为独立 token \(\mathcal{T}_{\mathcal{F}}\)。所有 token 经 Transformer 编码器处理。

解耦交叉注意力:遵循 IP-Adapter 的方法,3D 布局嵌入 \(\hat{\mathcal{T}}\) 通过额外的可训练线性投影得到 key \(K^y\) 和 value \(V^y\),与来自图像特征图的 query \(Q\) 做点积注意力: $\(H^y = \text{softmax}\left(\frac{Q(K^y)^\top}{\sqrt{d}}\right) \cdot V^y\)$ 最终隐含状态为文本条件和 3D 布局条件的加权和: $\(H = H^c + \gamma H^y\)$ 其中 \(\gamma\) 控制 3D 布局引导的强度。

  • 设计动机:解耦设计保留了原始 T2I 模型的文本条件机制不变,通过独立的 KV 投影引入 3D 条件。\(\gamma\) 参数允许灵活控制结构遵循度——低 \(\gamma\) 保持文本驱动的创意自由度,高 \(\gamma\) 强化结构精确性。

3. 训练策略与应用场景

  • 功能:高效训练 + 多种编辑应用
  • 核心思路

训练动态:采用 classifier-free guidance 训练,以概率 \(p_{\text{drop}}\) 随机丢弃 3D 布局输入 \(y\)。训练时全局文本描述 \(c\) 始终为空提示——模型不需要文本-图像对训练。物体语义描述可从 VLM(如 BLIP)自动生成。

应用场景: - 结构一致的多视角生成:不同相机姿态 \(\mathcal{C}_i\) 生成结构一致的多个视角 - 文本驱动的场景风格化:利用保留的 T2I 先验,通过全局文本提示变换风格 - 物体属性级编辑:独立调整单个物体的位置、大小或语义描述

  • 设计动机:不依赖文本-图像配对训练使方法适用于缺乏全局描述的 3D 场景数据集。将编辑操作在 3D 空间执行(而非 2D 像素空间)提供了更直观和精确的控制。

损失函数 / 训练策略

  • 训练目标:标准扩散模型去噪损失 $\(\mathcal{L}_{\text{DM}} = \mathbb{E}_{x,c,y,\epsilon \sim \mathcal{N}(0,I),t} \left[\|\epsilon - \epsilon_\theta(x_t, t, c, y)\|_2^2\right]\)$
  • 骨干:Stable Diffusion v1.5(冻结)
  • 训练数据:HyperSim(326 个场景,24,383 张图像)+ 自定义卧室数据集(72,000 个场景)
  • 优化器:AdamW

实验关键数据

主实验

3D 布局引导图像生成(HyperSim 数据集):

方法 FID↓ KID↓ IS↑ SOC↑
SceneCraft (无文本) 39.36 28.26 7.72 17.59
DM-FS (无文本) 15.83 7.29 8.69 18.22
LACONIC (无文本) 9.50 3.44 9.74 18.36
SceneCraft (有文本) 27.69 15.21 14.55 17.40
LACONIC (有文本) 10.12 3.91 10.60 18.39

消融实验

适配器强度 \(\gamma\) 的影响

\(\gamma\) 效果描述
低(~0.5) 保留文本先验创意但弱结构控制
中(~1.0) 语义和几何均合理
高(~2.0) 严格遵循 3D 布局结构

架构设计验证

方法 FID↓ SOC↑ 说明
SceneCraft (2D 投影条件) 39.36 17.59 3D→2D 投影丢失信息
DM-FS (从头训练) 15.83 18.22 无预训练先验
LACONIC (适配器) 9.50 18.36 适配器 + 3D 编码器最优

关键发现

  1. 3D 直接编码优于 2D 投影:LACONIC 比 SceneCraft 在 FID 上降低 75.8%(39.36→9.50),验证了直接使用 3D 表征的优势
  2. 适配器优于从头训练:DM-FS(从头训练)在所有指标上不如 LACONIC(适配器),证明利用预训练 T2I 先验的重要性
  3. 屏幕外物体影响全局:实验显示移除窗户会改变全局照明——这在 2D 条件方法中不可能实现
  4. 物体级 SOC 指标:新提出的 Scene Object CLIP score 可量化评估物体级条件遵循度
  5. 语义概念精准分配:文本提示中的语义概念(如壁纸图案)被准确分配到相关物体,不会泄漏到地板或天花板

亮点与洞察

  1. 表征设计的突破:3D 语义包围盒 = 位置 + 尺寸 + 旋转 + 自由文本,简洁但足以表达复杂的室内场景结构
  2. 闭式相机变换:将 3D→2D 的关键映射显式化(坐标变换),避免网络学习这个复杂映射,极大提升了训练效率
  3. 不依赖文本监督训练:训练时不需要全局文本描述,但推理时可利用 T2I 骨干的文本先验——这得益于解耦交叉注意力的优雅设计
  4. SOC 评估指标:针对布局引导生成场景提出了物体级语义对齐评估方法
  5. 编辑能力强大:单个物体的移动/缩放/重新描述可迭代执行,且保持全局 3D 一致性

局限与展望

  1. 训练数据分布限制:在卧室数据上训练的模型不太可能生成合理的厨房场景,泛化受限于训练域
  2. 视角一致性有限:虽然 3D 结构一致,但不同视角生成的纹理/外观细节不完全一致(单视图训练的固有限制)
  3. 骨干限制:使用 SD 1.5 作为骨干,生成质量受限于基础模型(但已验证与 DiT 骨干兼容)
  4. 场景复杂度:论文主要在室内场景验证,对更复杂的室外场景或大规模场景的扩展性未知
  5. 数据规模:HyperSim 仅 326 个唯一布局,可能导致场景记忆化

相关工作与启发

  • 与 IP-Adapter 的关系:LACONIC 借鉴其解耦交叉注意力方法,但从图像引导扩展到 3D 布局引导
  • 与 SceneCraft 的根本区别:SceneCraft 仍在 2D 空间(深度图+语义图),LACONIC 直接在 3D 空间工作
  • 与 GLIGEN 的区别:GLIGEN 使用 2D 包围盒 + 独热类别,LACONIC 使用 3D 包围盒 + 自由文本

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次直接用参数化 3D 布局作为扩散模型条件,但适配器设计沿用已有范式
  • 实验充分度: ⭐⭐⭐⭐ — 定量 + 定性 + 用户研究 + 新 SOC 指标,但数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐⭐ — 问题动机清晰,图示丰富且直观
  • 价值: ⭐⭐⭐⭐ — 为 3D 感知图像生成提供了更直接和灵活的解决方案

相关论文