HouseMind: Tokenization Allows MLLMs to Understand, Generate and Edit Architectural Floor Plans¶

会议: CVPR 2026
arXiv: 2603.11640
代码: housemind.github.io
领域: 多模态VLM / 建筑设计 / 空间推理
关键词: floor plan, MLLM, VQ-VAE tokenization, room-instance tokens, spatial reasoning, controllable generation

一句话总结¶

提出HouseMind——通过VQ-VAE将建筑平面图离散化为房间级token，让轻量级LLM（Qwen3-0.6B）在统一框架中同时完成平面图理解、生成和编辑，在所有三项任务上全面超越现有扩散和VLM方法，且可单卡部署。

背景与动机¶

建筑平面图设计需同时推理几何（房间形状尺寸）、语义（功能类别）和空间层次（邻接/连通性），是AI系统的主要挑战。现有方法：(1) 布局合成=纯视觉过程，缺少房间级推理导致全局不连贯；(2) 大模型黑盒生成，空间可控性差；(3) 理解/生成/编辑三任务无法统一；(4) 计算开销大难以本地部署。

核心问题¶

如何让MLLM具备结构化空间推理能力，在一个轻量框架中统一平面图的理解、生成和编辑？

方法详解¶

整体框架¶

HouseMind = (1) Room-Instance Tokenization用层级VQ-VAE将平面图分解为outline tokens+room tokens + (2) 三阶段训练管线让LLM处理空间token和文本的混合序列。

关键设计¶

层级VQ-VAE空间Token化: 轮廓分支编码建筑外轮廓（8x8 grid, codebook=256），房间分支条件编码每个房间（输入=房间mask+轮廓mask保留邻接关系）。平面图表示为交错序列 Z = [z_o, label_r1, z_r1, ..., label_rN, z_rN]
三阶段训练: Stage 1 将VQ-VAE codebook嵌入LLM词表；Stage 2 在文本-空间token配对数据上自回归预训练；Stage 3 在理解/生成/编辑三类指令上SFT
统一任务建模: 理解=从Z推断拓扑；生成=给定文本+轮廓自回归输出Z；编辑=给定原始Z和指令输出修改版Z

损失函数 / 训练策略¶

VQ-VAE标准损失（重建+commitment），轮廓50ep lr=3e-4，房间30ep lr=1e-4。LLM用自回归next-token prediction，cosine schedule + 10% warmup，Qwen3-0.6B + FlashAttention-2，RTX 5090单卡。

实验关键数据¶

理解: HouseMind-U RMR=0.998, LocAcc=0.969, AreaDiff=0.549m2, AdjAcc=0.990, RelAcc=0.808（3秒）。对比Qwen3-VL-8B仅0.698/0.347/5.837/0.382/0.128（8秒），MiniCPM-V 4.5仅0.904/0.492/13.765/0.597/0.208（14秒）

生成: HouseMind-G Micro IoU=0.709, FID=1.91, GED=1.01, Node F1=0.994, Edge Ovl=0.880（2秒）。ChatHouseDiffusion仅0.589/11.3/2.36/0.985/0.710（30秒）

编辑: HouseMind-E Delta IoU=0.608, Node F1=0.998, Edge Ovl=0.934。FLUX.1-Kontext仅0.053/0.765/0.222

消融实验要点¶

三阶段缺一不可：w/o Stage1&2 Loss=0.0729，w/o Stage1=0.0659，w/o Stage2=0.0712，Full=0.0644
Codebook大小256/512/1024几乎无差异，VQ-VAE非信息瓶颈
Pixel-Structure耦合：HouseMind r=0.57 vs FloorPlanLLaMA r=0.70，room token化实现部分解耦

亮点¶

Token化让0.6B小模型碾压8B级VLM，设计理念干净优雅
首个统一理解+生成+编辑的平面图框架，Omni变体不弱于单任务模型
对标GPT-5和Gemini 2.5 Pro，HouseMind在结构准确性上仍更优
RTX 3090单卡2-3秒/样本，有实际工程价值

局限性¶

编辑仅支持简单操作（加/删房间），不支持复杂拓扑变换
未建模门窗家具，限制室内设计深度
未对齐人类设计偏好/美学约束
仅RPLAN数据集（中国住宅），其他建筑类型泛化性未知

与相关工作的对比¶

ChatHouseDiffusion: 扩散+语言条件，简单布局OK但复杂空间失败；HouseMind room-level推理保持全局一致性
FloorPlanLLaMA: VQ-VAE+LLM但编码整图为单一序列，缺房间级控制；HouseMind条件room tokenization保邻接关系
MaskPLAN: VQ-VAE attributes+masked transformer，仅单任务；HouseMind统一三任务支持文本指令

启发与关联¶

领域结构化token化是让小模型做大事的通用范式
条件编码保留空间上下文的设计有普适价值

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐