SoPE: Spherical Coordinate-Based Positional Embedding for 3D LVLMs¶

会议: CVPR 2026
arXiv: 2602.22716
代码: 待确认
领域: 3D视觉 / 多模态VLM / 位置编码
关键词: 3D LVLM, 位置编码, 球面坐标, RoPE, SpatialLM, 空间推理

一句话总结¶

揭示RoPE在3D LMM中的空间感知偏差——1D光栅索引无法保持3D结构且忽略方向变化，提出球面坐标位置编码SoPE（\(t,r,\theta,\phi\)四维索引+多维频率分配+多尺度混合），显著提升3D布局估计和物体检测。

3D LVLM继承RoPE将点云token展平为1D序列，破坏3D空间局部性（相邻点索引相距远），相对距离\(\Delta t=t_1-t_2\)只捕捉时序不感知方向角度。信息流可视化显示跨模态注意力集中在少数热点，大量空间区域被忽略。

RoPE两个根本缺陷：(1) 1D索引无法保持3D结构；(2) 相对位置忽略方向角度。RoPE-3D（笛卡尔坐标）改善位置但仍缺乏方向信息——球面坐标自然分离距离和角度。

SpatialLM → 点云token笛卡尔→球面\((r,\theta,\phi)\) → 保留时序\(t\) → 频率分配\(t:r:\theta:\phi=24:2:3:3\) → 多尺度频率混合

球面坐标投影: \((t,r,\theta,\phi)\)四维索引，相对距离分解为\(\Delta t,\Delta r,\Delta\theta,\Delta\phi\)
频率分配: 球面分量→高频带（细粒度空间/角度），时序→低频带（长程连贯）
多尺度混合: \(\varphi_k(u)=\frac{1}{3}(\omega_k^{lin}g_{lin} + \omega_k^{log}g_{log} + \omega_k^{per}g_{per})\)，无额外参数

继承SpatialLM；Sonata+Qwen2.5-0.5B+2层MLP；4×H20

布局: Structured3D IoU2D@0.25/0.50 = 88.7/86.2 vs 86.5/84.6

vs RoPE-3D: 保持位置但缺方向；vs MCA/CCA: 2D投影丢3D信息；vs PRoPE: 面向NVS非点云

球面位置编码可用于任何3D数据LMM；多尺度频率混合可迁移到vision Transformer