Focal Split: Untethered Snapshot Depth from Differential Defocus¶

会议: CVPR 2025
arXiv: 2504.11202
代码: https://focal-split.qiguo.org (有，含DIY指南)
领域: 其他 / 计算摄影
关键词: 差分离焦深度, 跳蛛仿生, 分光镜, 被动测距, 低功耗边缘设备

一句话总结¶

受跳蛛视觉启发，构建首个无线（电池供电）的快照式差分离焦深度相机 Focal Split，用分光镜将光路分给两个不同焦距的传感器，仅需 500 FLOPs/像素和 4.9W 功率即可在树莓派上实时估计深度。

领域现状：深度感知是机器人和AR的基础需求。主流方案包括主动方法（结构光/ToF/LiDAR，功耗高）和被动方法（双目/单目DNN，计算量大）。差分离焦（DfDD）是一种优雅的被动方案——通过比较不同焦距下的图像模糊程度推断深度。

现有痛点：现有 DfDD 方法要么需要时序两帧（改变焦距拍两次，动态场景失败），要么需要高端工作站（如 Focal Track 需要 GPU 服务器）。没有能在边缘设备上实时运行的无线深度相机。

核心矛盾：DfDD 需要两个不同焦距的图像，但时序采集会引入运动模糊，空间采集（两个传感器）通常被认为标定困难且体积大。

切入角度：跳蛛眼睛的启发——跳蛛通过多层视网膜（不同焦距）同时获取不同焦平面的图像来感知深度。用分光镜+两个放置在不同距离的传感器模拟这一机制。

核心 idea：分光镜 + 双传感器不同焦距 = 500 FLOPs/像素的实时被动深度感知。

本文目标：### 关键设计

光学系统设计:
- 功能：同时获取两个不同焦距的图像
- 核心思路：30mm 镜头后放一个分光镜，将入射光分成两路。两个 OV5647 传感器分别放在距镜头不同距离 $s_1$、$s_2$ 的位置。更近的传感器看到"前焦"图像，更远的看到"后焦"图像
- 设计动机：空间分离消除了时序采集的运动伪影，分光镜保证两路图像完全同步
超低计算量的深度估计:
- 功能：从焦距差中推断场景深度
- 核心思路：深度 $Z = a/(b + \tilde{I}_s / \nabla^2 \tilde{I})$，其中 $\tilde{I}_s$ 是焦距方向的梯度（两传感器图像差分得到），$\nabla^2 \tilde{I}$ 是空间拉普拉斯算子。只需简单的图像差分和卷积，每像素仅 500 FLOPs
- 设计动机：DNN 方法每像素需要百万级 FLOPs，此方法靠解析公式实现 3 个数量级的计算节省
置信度度量与放大倍率校正:
- 功能：识别不可靠深度估计并校正因传感器距离不同导致的放大倍率差异
- 核心思路：置信度 $C = \tilde{I}_s^2$——焦距梯度越大说明信号越强、估计越准。放大倍率校正通过仿射变换对齐两传感器图像
- 设计动机：在纹理稀疏区域 $\tilde{I}_s \approx 0$，深度估计退化，置信度自动标记这些区域

无训练过程——完全是解析方法。参数 $(a, b)$ 通过光学标定确定。L=21 的 box filter 做噪声平滑。硬件成本约 $500，体积 4×5×6 cm³。

指标	Focal Split	Focal Flow	Focal Track
功耗	4.9W	~100W	~300W
计算量/像素	500 FLOPs	~10⁶	~10⁷
动态场景 MAE	~42mm	179.25mm	107.69mm
工作距离	860mm	-	-