PriOr-Flow: Enhancing Primitive Panoramic Optical Flow with Orthogonal View¶

会议: ICCV 2025
arXiv: 2506.23897
代码: GitHub
领域: 视频理解 / 光流估计 / 全景视觉
关键词: panoramic optical flow, equirectangular projection, dual-branch, distortion compensation, orthogonal view

一句话总结¶

提出双分支框架 PriOr-Flow，利用正交视图的低畸变先验来补偿 ERP 全景图像极区的严重畸变，从而显著提升全景光流估计精度，在 MPFDataset 和 FlowScape 上分别降低 EPE 30.0% 和 29.6%。

研究背景与动机¶

全景光流估计旨在从全景视频的连续帧中估计稠密的像素运动场，在自动驾驶、视频插帧、3D 重建等领域有重要应用。当前全景图像普遍采用等距柱状投影（ERP），但 ERP 将球面映射到平面时会引入严重的几何畸变，尤其在极区（南北极附近）畸变最为剧烈，遵循 cosine 衰减规律。

现有方法可分为三类： 1. 权重变换方法（LiteFlowNet360, OmniFlowNet）：通过卷积权重变换适配 ERP，但引入额外计算开销 2. 切平面方法（TanImg）：将球面投影到多个切平面上处理，但存在跨平面不连续和运动不一致问题 3. ERP-based 方法（PanoFlow, SLOF, MPF-Net）：直接处理 ERP 图像，使用可变形卷积等技术补偿畸变

核心问题：以上所有方法都没有显式针对极区的严重畸变进行处理。极区是 ERP 投影中畸变最大的区域（像素被过度拉伸），导致代价体中噪声严重、光流估计误差大。

核心洞察：将全景图像在球面上绕 x 轴旋转 90° 得到正交视图（Orthogonal View），其畸变分布恰好与原始视图互补——原始视图极区高畸变的区域在正交视图中变为低畸变区域。利用这一互补性，可以用正交视图的低畸变信息来补偿原始视图的极区误差。

方法详解¶

整体框架¶

PriOr-Flow 采用双分支结构（可集成到 RAFT、GMA、SKFlow 等迭代式光流网络中），以 PriOr-RAFT 为例：

原始分支（Primitive Branch）：处理原始 ERP 帧对，构建原始代价体金字塔
正交分支（Orthogonal Branch）：将 ERP 帧对旋转 90° 得到正交视图，独立提取特征并构建正交代价体金字塔
DCCL 算子：在迭代更新中联合从两个代价体检索相关性信息
ODDC 模块：基于置信度引导的运动特征融合，将正交分支的运动信息补偿到原始分支

关键设计¶

1. 正交视图生成¶

通过球面旋转操作 \(\mathcal{R}\) 实现： - 将 ERP 像素坐标 \(\mathbf{x}\) 映射到 3D 笛卡尔坐标 \(P(\mathbf{x})\) - 绕 x 轴旋转 90°：\(R_x(90°) \cdot P(\mathbf{x})\) - 重新投影回 ERP 平面，使用双线性插值：\(I^o = T_p^o(I^p)\)

正交视图的关键特性：其畸变分布与原始视图互补，极区变为低畸变，赤道区域变为高畸变。

2. Dual-Cost Collaborative Lookup (DCCL)¶

传统方法仅从单一代价体检索相关性，极区的畸变噪声会严重影响检索质量。DCCL 在统一的球面上进行关联查找：

根据当前光流估计 \(\mathcal{F}^p\) 定位对应点 \(\hat{\mathbf{x}}^p\)（含 mod W 保证水平边界连续）
在对应点周围定义局部网格 \(\mathcal{N}(\hat{\mathbf{x}}^p)_r^p\)
分别从原始代价体金字塔索引得到 \(\mathcal{C}^p\)
将局部网格通过球面旋转转换到正交坐标系：\(\mathcal{N}(\hat{\mathbf{x}}^p)_r^o\)
从正交代价体金字塔索引得到 \(\mathcal{C}^o\)，再转回原始格式 \(\mathcal{C}^{o2p}\)

两路相关性信息联合输入 ConvGRU 指导光流恢复。

3. Ortho-Driven Distortion Compensation (ODDC)¶

ODDC 进一步利用正交视图的低畸变先验来补偿极区光流重建：

置信度计算：使用 group-wise 相关性计算原始光流 \(G^p\) 和正交光流 \(G^{o2p}\) 的置信度图
运动特征编码：包含三个浅层编码器 \(\text{En}_c\)（相关性）、\(\text{En}_g\)（置信度）、\(\text{En}_f\)（光流条件）
融合策略：\(m^p = [\text{En}_c(\mathcal{C}^p + \mathcal{C}^{o2p}), \text{En}_g([G^p, G^{o2p}]), \text{En}_f([\mathcal{F}^p, \mathcal{F}^{o2p}]), \mathcal{F}^p, \mathcal{F}^{o2p}]\)
融合后的运动特征输入 ConvGRU 更新隐状态，解码残差流更新光流

损失函数 / 训练策略¶

球面加权 L1 损失：考虑 ERP 投影的非均匀采样特性，对每个像素的 L1 损失乘以对应球面面积权重 \(\omega^j\)
双分支联合监督：原始分支用原始 GT 监督，正交分支用旋转后的 GT 监督
指数递增权重：沿迭代方向 \(\gamma^{N-i}\)（\(\gamma=0.8\)）递增权重
总损失：\(\mathcal{L} = \mathcal{L}_p + \mathcal{L}_o\)

训练细节： - AdamW 优化器，梯度裁剪 [-1, 1]，one-cycle 学习率调度 - 初始学习率 1e-4，使用 RAFT 在 FlyingThings 上的预训练权重 - MPFDataset：batch size 4，训练 60k 步 - FlowScape：batch size 6，训练 100k 步 - 迭代次数：训练和测试均为 12 次

实验关键数据¶

主实验¶

在 MPFDataset 和 FlowScape 两个基准上的对比：

方法	基线	MPF-EFT EPE	MPF-EFT SEPE	MPF-City EPE	MPF-All EPE	FlowScape-All EPE	FlowScape-All SEPE
SphereNet+RAFT	RAFT	13.2	15.7	8.28	10.7	12.9	21.0
TanImg+RAFT	RAFT	4.38	9.52	3.13	3.76	18.3	25.3
SLOF	RAFT	4.98	8.20	1.35	3.17	7.59	5.79
PanoFlow	RAFT	-	-	-	-	3.38	4.78
PanoFlow	CSFlow	-	-	-	-	3.31	4.44
PriOr-RAFT	RAFT	3.30	6.23	1.13	2.22	2.33	3.49

在 MPFDataset 上 EPE 降低 30.0%（vs SLOF），SEPE 降低 20.9%
在 FlowScape 上 EPE 降低 29.6%，SEPE 降低 21.4%（vs PanoFlow）

极区性能对比（FlowScape）：

方法	赤道 EPE	赤道 SEPE	极区 EPE	极区 SEPE	全区 EPE	全区 SEPE
PanoFlow	0.52	2.87	6.25	6.68	3.38	4.78
PriOr-RAFT	0.53	2.94	4.13	4.03	2.33	3.49

极区 EPE 提升 39.7%，赤道区域性能基本持平。

消融实验¶

模块有效性消融（MPFDataset EFT 场景）¶

模型	正交视图	DCCL	ODDC	极区 EPE	极区 SEPE	全区 EPE	全区 SEPE
RAFT Baseline	✗	✗	✗	7.90	8.56	4.49	7.43
+正交+DCCL	✓	✓	✗	7.56	8.16	4.32	7.20
PriOr-RAFT (Full)	✓	✓	✓	5.57	6.47	3.30	6.23

ODDC 模块带来极区 EPE 26.3% 的提升，是最关键的组件。

通用性消融¶

模型	EPE	EPE 降幅	运行时间
RAFT	4.49	-	0.07s
PriOr-RAFT (4-iter)	3.89	↓13.4%	0.10s
PriOr-RAFT	3.30	↓26.5%	0.20s
GMA	4.26	-	0.07s
PriOr-GMA (4-iter)	3.51	↓17.6%	0.10s
PriOr-GMA	3.25	↓23.7%	0.20s
SKFlow	3.79	-	0.12s
PriOr-SKFlow (4-iter)	3.33	↓12.1%	0.13s
PriOr-SKFlow	3.19	↓15.8%	0.30s

PriOr-GMA 仅用 4 次迭代就实现 17.6% 提升，推理时间几乎不变。

关键发现¶

正交视图选择：x 轴旋转 90° 效果最佳（EPE 3.30），y 轴旋转会破坏极区连续性（EPE 3.55），45° 旋转低畸变区域较小（EPE 3.41）
迭代次数：PriOr-RAFT 仅需 3 次迭代即可超越 baseline 的 12 次迭代结果，说明正交分支的运动特征能加速模型收敛
置信度类型：基于 warp+groupwise 相关性的动态置信度（EPE 3.30）优于固定的畸变图置信度（EPE 3.34），因其能反映实际光流置信度

亮点与洞察¶

互补畸变的巧妙利用：ERP 投影的极区高畸变问题长期困扰全景视觉，本文通过 90° 球面旋转产生畸变互补的正交视图，思路直觉且优雅
通用性强：DCCL 和 ODDC 模块可即插即用地集成到 RAFT、GMA、SKFlow 等多种迭代式光流网络中，均带来显著提升
收敛加速：引入正交分支信息后，仅需更少的迭代次数即可达到甚至超越 baseline 精度，这意味着可以在保持推理速度的前提下获得精度提升
球面统一检索：DCCL 在统一球面上进行坐标变换和关联查找，确保两个代价体的检索在几何上是对齐的

局限性 / 可改进方向¶

赤道区域的轻微退化：由于极区和赤道的畸变权衡，PriOr-RAFT 在赤道区域 EPE 略劣于 PanoFlow（0.53 vs 0.52），未来可探索自适应区域加权策略
计算开销：双分支结构使推理时间约翻倍（0.07s → 0.20s），在实时性要求高的场景中可能成为瓶颈
仅评估合成数据的定量结果：真实场景评估仅为定性（缺乏真实全景光流 GT 数据集），泛化性需进一步验证
固定旋转角度：当前只使用单一 90° 旋转，未探索多角度正交视图的潜在增益
未考虑球面上的上下边界处理：ERP 的上下边界（极点处）的特殊拓扑结构可能需要额外处理

评分¶

新颖性: ⭐⭐⭐⭐ — 正交视图互补畸变的思路简洁有效，DCCL+ODDC 的融合机制设计合理
技术质量: ⭐⭐⭐⭐ — 消融全面，多基线集成验证通用性，定量定性结果充分
实验充分度: ⭐⭐⭐⭐ — 多数据集、多基线、多消融维度，但缺少真实场景定量评估
实用性: ⭐⭐⭐⭐ — 即插即用，已开源，对全景光流领域有实际推动作用
总评: ⭐⭐⭐⭐ — 思路优雅，效果显著（30% EPE↓），消融充分，是全景光流估计的扎实工作