HouseTour: A Virtual Real Estate A(I)gent¶

会议: ICCV 2025
arXiv: 2510.18054
代码: https://house-tour.github.io/
领域: 3D视觉 / 视觉语言模型 / 轨迹生成
关键词: Camera Trajectory Generation, Real Estate, Diffusion, VLM, 3D Gaussian Splatting

一句话总结¶

提出 HouseTour，给定一组已知位姿的室内图像，联合生成类人的3D相机轨迹和房地产文字描述，通过 Residual Diffuser 进行基于扩散的轨迹规划并将空间特征集成到 Qwen2-VL-3D 中生成3D-grounded文本摘要。

研究背景与动机¶

房产视频导览是美国房地产市场（价值3.43万亿美元）的关键工具。然而，制作专业导览视频需要：(1) 具备高端摄影设备的专业经纪人实地拍摄；(2) 精心撰写空间描述文案。这一过程劳动密集且成本高昂。

现有方法的局限： - 视觉语言模型（VLMs）在几何推理方面能力不足，无法理解3D空间布局 - 现有3D数据集的相机轨迹针对重建任务设计（近距离贴近物体表面、抖动运动），不适合展示整体空间 - 场景描述数据集只罗列家具及其关系，缺乏对空间布局、建筑特征、材质、氛围的专业描述

核心目标：让普通用户无需专业设备，仅上传一组手机拍摄的照片，即可自动生成专业级房产导览视频+文字描述。

方法详解¶

整体框架¶

给定稀疏有序相机位姿 $\mathcal{C}=[c_1,...,c_{N_c}]$ 和对应RGB图像 $\mathcal{I}$： 1. Residual Diffuser：生成平滑的类人导览轨迹 $\tau$ ($N > N_c$ 帧) 2. Qwen2-VL-3D：利用轨迹空间特征+视觉tokens生成房地产文字摘要 $\Sigma$ 3. 3DGS渲染：沿生成轨迹渲染最终导览视频

Residual Diffuser — 基于扩散的轨迹规划¶

核心创新：不直接学习绝对轨迹（因为不同房产布局差异巨大），而是学习相对于样条插值的残差。

公式化：$\tilde{p} = \mathcal{S} + \Delta p$，其中 $\mathcal{S}$ 是已知位姿间的样条插值，$\Delta p$ 是预测残差。对于已知位姿时间步，残差为零向量。

反向扩散过程： $$\begin{cases} \vec{0} = \delta(p^i) & \text{if } i \in t_\tau \\ p_\theta(\Delta p_{t-1}^i | \Delta p_t^i, \mathcal{S}) = \mathcal{N}(\Delta p_{t-1}^i; \mu_\theta, \Sigma_\theta) & \text{else} \end{cases}$$

轨迹损失： - 平移：在均匀采样的密集样条点上计算L2范数 - 旋转：在SO(3)流形上使用测地线损失 $$\mathcal{L}_\theta = \mathbb{E}_{t,\tau,\epsilon}\left[\|\epsilon_{pos} - \epsilon_\theta(pos_t,t)\|^2 + d_{geo}(\epsilon_{rot}, \epsilon_\theta(rot_t,t))\right]$$

关键设计：在连续相机位姿间用Horner方法高效评估样条段上的均匀采样点，将轨迹建模为连续函数而非离散点序列。

Qwen2-VL-3D — 3D感知的文本生成¶

HouseTour数据集¶

1639个导览视频，涵盖从公寓到多层别墅的多样房产
1298个视频带文字描述（半数有时间戳），878个场景有3D重建
提供场景级人类轨迹、密集点云和专业房地产描述

实验¶

端到端性能¶

方法	R@75cm ↑	Rot. Score ↑	BT ↑	SLS ↑
Baseline (Catmull-Rom + Qwen2-VL SFT)	57.1	96.8	71.4	71.7
HouseTour	60.2	97.1	79.5	76.0

HouseTour在所有指标上超越基线，特别是文本生成（BT +8.1）。

轨迹生成消融¶

方法	R@50cm ↑	R@1m ↑	Euclidean ↓	DTW ↓	Geodesic ↓
Linear Interp.	41.2%	59.8%	145.8	192.1	0.20
Catmull-Rom	45.9%	64.7%	106.2	146.3	0.10
Residual Diffuser	46.2%	69.4%	73.9	128.8	0.09

关键发现： - Residual Diffuser在R@1m上显著优于插值方法（69.4% vs 64.7%），表明大误差更少 - 欧几里德距离降低30%+，残差学习显著优于直接轨迹学习 - 在更高不确定性的区域（远离已知位姿处），Residual Diffuser的优势更明显

亮点与洞察¶

残差扩散建模：将轨迹生成从学习绝对位置转为学习相对于样条的残差，优雅解决了跨场景的变化布局问题
新联合评估指标SLS：首次提出空间-语言联合评分（翻译回忆+旋转分数+Bradley-Terry的调和均值）
三模态VLM：将语言、视觉、3D定位三种模态集成到VLM中，实现空间感知的文本生成
实用性强：端到端系统可直接应用于房地产和旅游行业

局限性¶

依赖手机拍摄的图像质量和覆盖范围
3DGS渲染在稀疏视图下质量有限（作者将此声明为非本文范围）
数据集仅覆盖房地产场景，未扩展到其他导览场景（博物馆、旅游景点等）
文本生成仍依赖LoRA微调，对新领域的泛化需进一步验证

评分¶

创新性: ★★★★☆ — 残差扩散轨迹规划+三模态VLM的组合新颖
实用性: ★★★★★ — 直接面向价值万亿美元的房地产市场
实验: ★★★★☆ — 提出新数据集和评估指标，消融充分
写作: ★★★★☆ — 结构清晰，问题定义明确