跳转至

SonoWorld: From One Image to a 3D Audio-Visual Scene

会议: CVPR 2026
arXiv: 2603.28757
代码: https://humathe.github.io/sonoworld/
领域: 3D视觉 / 音频-视觉场景生成
关键词: 3D音频视觉场景, 空间音频生成, 全景图重建, Ambisonics编码, 单图生成

一句话总结

提出 SonoWorld,一个 training-free 的框架,可以从单张图片出发,生成可探索的3D音频-视觉场景:先将图片扩展为360°全景并重建为3D高斯场景,再通过VLM驱动的语义定位放置声源锚点,最后用 Ambisonics 编码渲染空间音频,实现视觉与听觉的几何和语义对齐。

研究背景与动机

领域现状:近年来视觉场景生成取得了巨大进展,从类似 WorldGen 等全景方法到 3D 高斯溅射技术,已经能够从单张图片生成可以自由漫游的3D世界。然而,这些系统产生的全部都是"沉默的世界"——可以看但不能听。

现有痛点:真正的沉浸式体验天然是多感官的。想象走进一个花园,瀑布声应该从上游传来并随靠近增大,鸟鸣声从树冠传来,虫鸣随着头部转动而变化。没有语义正确且有距离/方向线索的音频,视觉世界再逼真也是感知不完整的。现有的音频生成方法要么只生成单声道音频,要么局限于单个物体或固定视角,无法处理包含点声源(如鸟叫)、面声源(如河流)和环境声(如风声)等多种声源类型的场景级音频。

核心矛盾:场景级空间音频的生成需要同时解决三个问题:(1) 异构声源类型的组合——点源、面源、环境音行为各异;(2) 从纯视觉上下文推理什么物体在发声、怎么发声、多大声;(3) 所有声音需要锚定到从图像推断的合理3D位置,并具有感知真实的空间效果。

本文目标 定义了一个全新的任务 Image2AVScene:从单张图片同时生成可交互的3D视觉场景和与之语义/几何对齐的空间声场,并提出了首个完整框架。

切入角度:采用全景表示(equirectangular panorama)统一视觉和音频的坐标系,并利用VLM进行语义理解来桥接视觉与声音。

核心 idea:通过全景扩绘→3DGS重建→VLM驱动的360°语义定位→Ambisonics编码的无训练流水线,实现从单图生成可自由漫游的3D音频-视觉场景。

方法详解

整体框架

输入一张RGB图像,输出包括3D视觉场景 \(\mathbf{V}\)(3D高斯溅射表示)和空间音频场 \(\mathbf{A}\)(Ambisonics表示)。Pipeline包含四个阶段:(1) 视觉场景生成:相机标定→全景扩绘→3D重建;(2) 360°语义定位:VLM提取发声类别→开放词汇分割→全景掩码精炼→反投影到3D;(3) Ambisonics编码:文本到音频生成→均衡化→空间化编码;(4) 自由视角渲染:HRTF解码为双耳音频。

关键设计

  1. 全景视觉场景生成:

    • 功能:将单图扩展为360°全景并升维为3D场景
    • 核心思路:首先用 GeoCalib 进行单图相机标定获取仰角和视场角 \((φ, f) = \text{Calib}(I)\),然后通过高斯金字塔反走样采样将图像投影为等矩形全景,再用 WorldGen 的扩绘模型补全360°视野。最终使用 HunyuanWorld(开源)或 Marble(商业)将全景升维为3D高斯溅射场景
    • 设计动机:全景表示天然涵盖360°视野并提供统一坐标系,且仰角校正解决了先前方法假设水平拍摄导致的垂直失真问题
  2. 360°语义定位 (Semantic Grounding):

    • 功能:在3D场景中定位所有潜在的发声实体及其空间范围
    • 核心思路:先用 VLM(GPT-5 或 LLaVA-Next-34B)从输入图像推理发声类别集合 \(\mathcal{C}\) 及其属性(声源类型、文本提示、均衡化参数)。由于 OVS 模型是在透视图上训练的,将全景切成重叠的FoV瓦片分别用 X-Decoder 做开放词汇分割,再投回全景坐标。同时用 SAM2 对全景图做全局分割获得类无关的准确区域,然后让 OVS 结果对 SAM2 区域投票,以 SAM2 的全局几何一致性为底配合 X-Decoder 的语义精度。最后利用深度图将掩码反投影到3D获得声源锚点 \(\mathcal{P}\)
    • 设计动机:瓦片式OVS在拼接时会出现边缘断裂和不完整区域,而 SAM2 虽然精确但类别无关,两者互补解决了全景语义分割的精度和一致性问题
  3. Ambisonics 编码与渲染:

    • 功能:将语义定位的声源转换为可在任意位置/朝向渲染的空间音频
    • 核心思路:用 MMAudio 根据文本提示为每个声源生成波形 \(a_{i,\text{raw}}\),经均衡化 \(a_i(t) = 10^{v_i/20} a_{i,\text{raw}}(t)\) 后,按声源类型编码Ambisonics系数。点声源用质心近似 \(\mathbf{A}_\text{point} = \sum_i a_i \sigma(\|d_i\|) \mathbf{y}_L(...)\);面声源在整个点云上平均以创建漫射声场;环境音只编码全向分量 \(\mathbf{A}_\text{global} = a_\text{global}[1, 0, ..., 0]^\top\)。距离衰减用 \(\sigma(d)=e^{-\alpha d}/d\) 建模。整个渲染管线对音频缓冲区可微
    • 设计动机:不同类型声源行为差异大——鸟叫是点源需精确方向感,河流是面源产生漫射场,风声是环境音不依赖方向——统一在 Ambisonics 框架下分类处理。可微特性还使得框架可扩展到声学学习和声源分离任务

损失函数 / 训练策略

SonoWorld 是 training-free 的框架,不需要训练。全部基于预训练模型(VLM、扩绘模型、3D重建模型、音频生成模型)的组合。可微渲染管线用于下游任务(如单样本房间声学学习)时的优化。

实验关键数据

主实验

在自建的 SonoScene360 数据集(68个clip,6个真实场景)上评估:

方法 ΔAngular↓ CC↑ AUC↑ D-CLAPT↑ D-CLAPR↑
MMAudio 0.322 33.8%
SEE-2-SOUND 1.397 0.194 0.603 0.156 22.1%
OmniAudio 1.449 0.148 0.588 0.104 39.7%
Ours (Open-source) 0.975 0.491 0.753 0.413 52.9%
Ours (Proprietary) 0.728 0.658 0.838 0.457 67.6%

DOA误差降低47%,CC提升239%以上,语义指标提升117%以上。

消融实验

单样本房间声学学习(One-shot room acoustic learning):

方法 ΔAngular↓ MAG↓ ENV↓
NAF 1.76 3.96 3.60
AV-NeRF 1.58 4.58 1.89
Ours 0.22 3.46 1.22

关键发现

  • 方法在Apple M3 Pro笔记本上音频回调延迟 < 1ms,远低于 5.3ms 的实时要求
  • 用户研究(50名参与者,12个场景)中,SonoWorld 在所有对比中获得最高偏好率
  • 开源版本(HunyuanWorld + LLaVA-Next)即使与使用商业模型输出的baseline相比也显著胜出
  • Siren场景暴露了对运动声源的局限——静态图像输入无法感知声源运动

亮点与洞察

  • 首个 Image2AVScene 任务定义和完整方案:将视觉场景生成和空间音频生成统一到同一框架
  • 全景表示的统一性:全景不仅提供完整360°视野,还天然与Ambisonics坐标系对齐,是本文成功的关键架构选择
  • VLM + SAM2 互补融合:OVS提供语义但不全局一致,SAM2全局一致但无语义,投票融合策略巧妙
  • 可微渲染管线的通用性:同一框架轻松扩展到声学学习和声源分离
  • 无训练设计:全部基于现有模型的巧妙组合,工程可行性高

局限与展望

  • 无法处理运动声源(输入为静态图片)
  • FOA(一阶Ambisonics)的空间分辨率有限,高阶可改善但通道数指数增长
  • 声音生成依赖 MMAudio 的质量,对某些稀有声源可能生成效果不佳
  • 不建模房间混响、多径效应等复杂声学现象
  • 生成的视觉场景质量受限于扩绘和3D重建模型的能力

相关工作与启发

  • WonderWorld/WorldGen:全景到3D的场景生成基础
  • MMAudio:视频到音频的生成模型,本文用于逐源音频合成
  • X-Decoder + SAM2:开放词汇分割+全景精炼的组合值得借鉴
  • 该框架思路可扩展到 4D 动态场景和具身智能中的声学感知

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次定义并解决了从单图生成3D音频-视觉场景的任务,开创性工作
  • 实验充分度: ⭐⭐⭐⭐ 自建数据集+全面指标+用户研究+扩展应用,但评估场景数量有限(6个真实场景)
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,方法描述完整,公式推导严谨
  • 价值: ⭐⭐⭐⭐⭐ 为VR/AR和具身智能开辟了多感官场景生成的新方向

相关论文