ImViD: Immersive Volumetric Videos for Enhanced VR Engagement¶

会议: CVPR 2025
arXiv: 2503.14359
代码: 待公开
领域: 音频语音 / VR
关键词: 体积视频, VR沉浸, 多视角GoPro, 3DGS时序, 空间音频

一句话总结¶

构建首个沉浸式体积视频数据集——用 46 台同步 GoPro 的移动多视角系统拍摄 7 个场景（含室内/室外），提出 STG++ 增加可学习仿射颜色变换解决跨相机颜色不一致，实现 110.47 FPS 渲染/387MB 存储，并集成 HRTF 空间音频。

领域现状：VR 体验需要逼真的自由视角渲染。现有体积视频数据集要么基于固定相机阵列（空间受限），要么分辨率/帧率不足以支撑沉浸体验。

现有痛点：（1）缺少高分辨率（5K+）、高帧率（60FPS）、同步多视角的动态场景数据；（2）固定阵列覆盖角度有限，不支持自由移动；（3）现有方法不处理跨相机的颜色差异（光照遮挡导致各 GoPro 曝光不一致）。

核心矛盾：移动拍摄提供了更大的空间覆盖，但相机位姿标定困难（COLMAP 在视频序列上失败）。

切入角度：双策略采集——固定点拍摄（密集时序，可用 COLMAP 标定）+ 移动拍摄（大范围覆盖，位姿待解决）。STG++ 加入可学习颜色变换解决跨相机颜色不一致。

核心 idea：46 GoPro 移动阵列 + STG++ 颜色校正 + HRTF 空间音频 = 首个沉浸式体积视频数据集。

本文目标：### 关键设计

采集系统：46 台同步 GoPro，5312×2988@60FPS。双策略：固定点（密集时序）+ 移动（大范围）
STG++：在标准 STG（Spacetime Gaussians）基础上增加可学习的逐相机仿射颜色变换 \(C'_i = WC_i + T\)——消除因光照遮挡导致的跨相机颜色不一致
HRTF 空间音频：基于 HRTF（头相关传输函数）将单声道音频转为双耳立体声，根据听者-声源方向 \(\theta_s\) 和距离 \(\lambda\) 动态调整

\(\mathcal{L} = (1-\lambda_1)L_1 + \lambda_1 D_{SSIM}\)。60 帧分段训练。

场景	STG++ PSNR	FPS	内存
Opera	31.24%	110.47	387MB
Lab	27.58%	—	—
4DRotor (对比)	—	46.22%	5818MB

用户研究（21 位专家）：空间感知 61.9% Excellent，整体沉浸 90.46% ≥ Good。