SonoWorld: From One Image to a 3D Audio-Visual Scene¶

会议: CVPR 2026
arXiv: 2603.28757
代码: https://humathe.github.io/sonoworld/
领域: 3D视觉 / 音频-视觉场景生成
关键词: 3D音频视觉场景, 空间音频生成, 全景图重建, Ambisonics编码, 单图生成

一句话总结¶

提出 SonoWorld，一个 training-free 的框架，可以从单张图片出发，生成可探索的3D音频-视觉场景：先将图片扩展为360°全景并重建为3D高斯场景，再通过VLM驱动的语义定位放置声源锚点，最后用 Ambisonics 编码渲染空间音频，实现视觉与听觉的几何和语义对齐。

研究背景与动机¶

领域现状：近年来视觉场景生成取得了巨大进展，从类似 WorldGen 等全景方法到 3D 高斯溅射技术，已经能够从单张图片生成可以自由漫游的3D世界。然而，这些系统产生的全部都是"沉默的世界"——可以看但不能听。

现有痛点：真正的沉浸式体验天然是多感官的。想象走进一个花园，瀑布声应该从上游传来并随靠近增大，鸟鸣声从树冠传来，虫鸣随着头部转动而变化。没有语义正确且有距离/方向线索的音频，视觉世界再逼真也是感知不完整的。现有的音频生成方法要么只生成单声道音频，要么局限于单个物体或固定视角，无法处理包含点声源（如鸟叫）、面声源（如河流）和环境声（如风声）等多种声源类型的场景级音频。

核心矛盾：场景级空间音频的生成需要同时解决三个问题：(1) 异构声源类型的组合——点源、面源、环境音行为各异；(2) 从纯视觉上下文推理什么物体在发声、怎么发声、多大声；(3) 所有声音需要锚定到从图像推断的合理3D位置，并具有感知真实的空间效果。

本文目标 定义了一个全新的任务 Image2AVScene:从单张图片同时生成可交互的3D视觉场景和与之语义/几何对齐的空间声场，并提出了首个完整框架。

切入角度：采用全景表示（equirectangular panorama）统一视觉和音频的坐标系，并利用VLM进行语义理解来桥接视觉与声音。

核心 idea：通过全景扩绘→3DGS重建→VLM驱动的360°语义定位→Ambisonics编码的无训练流水线，实现从单图生成可自由漫游的3D音频-视觉场景。

方法详解¶

整体框架¶

输入一张RGB图像，输出包括3D视觉场景 \(\mathbf{V}\)（3D高斯溅射表示）和空间音频场 \(\mathbf{A}\)（Ambisonics表示）。Pipeline包含四个阶段：(1) 视觉场景生成：相机标定→全景扩绘→3D重建；(2) 360°语义定位：VLM提取发声类别→开放词汇分割→全景掩码精炼→反投影到3D；(3) Ambisonics编码：文本到音频生成→均衡化→空间化编码；(4) 自由视角渲染：HRTF解码为双耳音频。

关键设计¶

全景视觉场景生成:
- 功能：将单图扩展为360°全景并升维为3D场景
- 核心思路：首先用 GeoCalib 进行单图相机标定获取仰角和视场角 \((φ, f) = \text{Calib}(I)\)，然后通过高斯金字塔反走样采样将图像投影为等矩形全景，再用 WorldGen 的扩绘模型补全360°视野。最终使用 HunyuanWorld（开源）或 Marble（商业）将全景升维为3D高斯溅射场景
- 设计动机：全景表示天然涵盖360°视野并提供统一坐标系，且仰角校正解决了先前方法假设水平拍摄导致的垂直失真问题
360°语义定位 (Semantic Grounding):
- 功能：在3D场景中定位所有潜在的发声实体及其空间范围
- 核心思路：先用 VLM（GPT-5 或 LLaVA-Next-34B）从输入图像推理发声类别集合 \(\mathcal{C}\) 及其属性（声源类型、文本提示、均衡化参数）。由于 OVS 模型是在透视图上训练的，将全景切成重叠的FoV瓦片分别用 X-Decoder 做开放词汇分割，再投回全景坐标。同时用 SAM2 对全景图做全局分割获得类无关的准确区域，然后让 OVS 结果对 SAM2 区域投票，以 SAM2 的全局几何一致性为底配合 X-Decoder 的语义精度。最后利用深度图将掩码反投影到3D获得声源锚点 \(\mathcal{P}\)
- 设计动机：瓦片式OVS在拼接时会出现边缘断裂和不完整区域，而 SAM2 虽然精确但类别无关，两者互补解决了全景语义分割的精度和一致性问题
Ambisonics 编码与渲染:
- 功能：将语义定位的声源转换为可在任意位置/朝向渲染的空间音频
- 核心思路：用 MMAudio 根据文本提示为每个声源生成波形 \(a_{i,\text{raw}}\)，经均衡化 \(a_i(t) = 10^{v_i/20} a_{i,\text{raw}}(t)\) 后，按声源类型编码Ambisonics系数。点声源用质心近似 \(\mathbf{A}_\text{point} = \sum_i a_i \sigma(\|d_i\|) \mathbf{y}_L(...)\)；面声源在整个点云上平均以创建漫射声场；环境音只编码全向分量 \(\mathbf{A}_\text{global} = a_\text{global}[1, 0, ..., 0]^\top\)。距离衰减用 \(\sigma(d)=e^{-\alpha d}/d\) 建模。整个渲染管线对音频缓冲区可微
- 设计动机：不同类型声源行为差异大——鸟叫是点源需精确方向感，河流是面源产生漫射场，风声是环境音不依赖方向——统一在 Ambisonics 框架下分类处理。可微特性还使得框架可扩展到声学学习和声源分离任务

损失函数 / 训练策略¶

SonoWorld 是 training-free 的框架，不需要训练。全部基于预训练模型（VLM、扩绘模型、3D重建模型、音频生成模型）的组合。可微渲染管线用于下游任务（如单样本房间声学学习）时的优化。

实验关键数据¶

主实验¶

在自建的 SonoScene360 数据集（68个clip，6个真实场景）上评估：

方法	ΔAngular↓	CC↑	AUC↑	D-CLAPT↑	D-CLAPR↑
MMAudio	—	—	—	0.322	33.8%
SEE-2-SOUND	1.397	0.194	0.603	0.156	22.1%
OmniAudio	1.449	0.148	0.588	0.104	39.7%
Ours (Open-source)	0.975	0.491	0.753	0.413	52.9%
Ours (Proprietary)	0.728	0.658	0.838	0.457	67.6%

DOA误差降低47%，CC提升239%以上，语义指标提升117%以上。

消融实验¶

单样本房间声学学习（One-shot room acoustic learning）：

方法	ΔAngular↓	MAG↓	ENV↓
NAF	1.76	3.96	3.60
AV-NeRF	1.58	4.58	1.89
Ours	0.22	3.46	1.22

关键发现¶

方法在Apple M3 Pro笔记本上音频回调延迟 < 1ms，远低于 5.3ms 的实时要求
用户研究（50名参与者，12个场景）中，SonoWorld 在所有对比中获得最高偏好率
开源版本（HunyuanWorld + LLaVA-Next）即使与使用商业模型输出的baseline相比也显著胜出
Siren场景暴露了对运动声源的局限——静态图像输入无法感知声源运动

亮点与洞察¶

首个 Image2AVScene 任务定义和完整方案：将视觉场景生成和空间音频生成统一到同一框架
全景表示的统一性：全景不仅提供完整360°视野，还天然与Ambisonics坐标系对齐，是本文成功的关键架构选择
VLM + SAM2 互补融合：OVS提供语义但不全局一致，SAM2全局一致但无语义，投票融合策略巧妙
可微渲染管线的通用性：同一框架轻松扩展到声学学习和声源分离
无训练设计：全部基于现有模型的巧妙组合，工程可行性高

局限与展望¶

无法处理运动声源（输入为静态图片）
FOA（一阶Ambisonics）的空间分辨率有限，高阶可改善但通道数指数增长
声音生成依赖 MMAudio 的质量，对某些稀有声源可能生成效果不佳
不建模房间混响、多径效应等复杂声学现象
生成的视觉场景质量受限于扩绘和3D重建模型的能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次定义并解决了从单图生成3D音频-视觉场景的任务，开创性工作
实验充分度: ⭐⭐⭐⭐ 自建数据集+全面指标+用户研究+扩展应用，但评估场景数量有限（6个真实场景）
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，方法描述完整，公式推导严谨
价值: ⭐⭐⭐⭐⭐ 为VR/AR和具身智能开辟了多感官场景生成的新方向